Latent Denoising Makes Good Visual Tokenizers
Latent Denoising Makes Good Visual Tokenizers
基本情報
- arXiv ID: 2507.15856v1 (https://arxiv.org/abs/2507.15856)
- 著者: Jiawei Yang、Tianhong Li、Lijie Fan、Yonglong Tian、Yue Wang
- 所属: USC, MIT CSAIL, Google DeepMind, OpenAI
- 投稿日: 2025年07月22日
- カテゴリ: cs.CV, cs.LG
簡単に説明すると
この論文は、視覚的生成モデルのためのより効果的なトークナイザーを設計する新しい手法「Latent Denoising Tokenizer (l-DeTok)」を提案しています。現代の生成モデルはすべて「ノイズ除去(denoising)」という共通の学習目的を持っているという観察に基づいています。トークナイザーの学習時にも同様のノイズ除去タスクを組み込むことで、下流の生成タスクとより良く整合した潜在表現を学習できることを示しました。ImageNet 256×256での評価において、6つの代表的な生成モデルで一貫した性能向上を達成しました。コードは https://github.com/Jiawei-Yang/DeTok で公開されています。
1. 研究概要
1.1 背景と動機
現代の視覚的生成モデルは、ピクセルレベルのモデリングの計算コストを回避するため、トークナイザーによって生成されたコンパクトな潜在埋め込みで動作します。現在のトークナイザーは通常、標準的な変分オートエンコーダー(VAE)として訓練され、主にピクセルレベルの再構成を最適化しています。しかし、下流の生成品質に影響を与えるにもかかわらず、どのような特性がより効果的なトークナイザーを作るのかは不明なままでした。
著者らは、現代の生成モデルが方法論的な違いにもかかわらず、概念的に類似した訓練目的を共有していることに着目しました。拡散モデルは拡散誘発ノイズを除去してクリーンな信号を回復し、自己回帰モデルは部分的に観察されたコンテキストから完全なシーケンスを再構成します。これらのプロセスを総称して「ノイズ除去(denoising)」と呼びます。この統一的な視点から、効果的な視覚的トークナイザーは、破損が激しい状態でも再構成可能な潜在埋め込みを生成すべきだという仮説を立てました。
1.2 主要な貢献
この研究の主要な貢献は以下の3点にまとめられます。
- 現代の生成モデルに共通する「ノイズ除去」という統一的な視点を提示し、これをトークナイザー設計の基本原則として活用
- 潜在ノイズ除去トークナイザー(l-DeTok)という新しい手法を提案し、補間的ノイズとランダムマスキングによる潜在表現の破損から元画像を再構成する学習を実施
- ImageNetベンチマークで6つの代表的な生成モデルにおいて一貫した性能向上を実証し、特にMAR-Bモデルでは FID を2.31から1.55に33%改善
2. 提案手法
2.1 手法の概要
l-DeTokは、破損された潜在表現から元の画像を再構成することで訓練される潜在ノイズ除去オートエンコーダーです。この破損-再構成設計は、現代の生成モデルで採用されているノイズ除去タスクと整合しています。
トークナイザーはVision Transformer(ViT)ベースのエンコーダー・デコーダーアーキテクチャに従います。入力画像は重複しないパッチに分割され、線形投影によって埋め込みベクトルに変換され、位置埋め込みが加算されます。訓練中、これらの埋め込みは2つの相補的な戦略を使って破損されます。
2.2 技術的詳細
提案手法の核心は、潜在埋め込みの破損方法にあります。
補間的ノイズによる破損:エンコーダーからの潜在埋め込みに対して、ガウスノイズと補間します。
x' = (1 - τ)x + τε(γ)
ここで、γはノイズの標準偏差を制御し、τはノイズレベルを指定します。この補間的戦略は、従来のVAEやDAEで使用される加算的ノイズとは異なり、ノイズレベルτが高い場合でも潜在表現を効果的に破損できることを保証します。
マスキングによる破損:MAEに触発されて、画像パッチのサブセットをランダムにマスクします。MAEとは異なり、ランダムなマスキング率を使用します。マスキング率は、わずかにバイアスのかかった一様分布からサンプリングされます。
m = max(0, U(-0.1, M))
訓練目的関数は、ピクセル単位の平均二乗誤差(MSE)、潜在空間のKL正則化、知覚的損失、敵対的GAN目的を組み合わせています。
2.3 新規性
本研究の新規性は、トークナイザー訓練に明示的にノイズ除去目的を組み込むことで、下流の生成モデルとの整合性を高めるという点にあります。従来のトークナイザーがピクセルレベルの精度や意味的整合性に焦点を当てていたのに対し、本手法は下流タスクとの整合性を重視しています。
また、補間的ノイズという新しいノイズ追加方法を提案し、従来の加算的ノイズよりも効果的であることを示しました。さらに、ランダムなマスキング率の使用により、固定マスキング率よりも優れた性能を達成しています。
3. 実験結果
3.1 実験設定
ImageNet 256×256での画像生成タスクで評価しました。6つの代表的な生成モデルで検証しました。非自己回帰モデルとしてDiT、SiT、LightningDiT、自己回帰モデルとしてMAR、RasterAR、RandomARを使用しました。
評価指標として、Fréchet Inception Distance (FID) とInception Score (IS) を使用し、生成品質を測定しました。アブレーション実験では、SiT-BとMAR-Bを代表的な非ARおよびARモデルとして使用しました。
3.2 主要な結果
実験結果から、l-DeTokがすべての評価モデルで一貫した性能向上を達成したことが示されました。
潜在ノイズの効果:補間的ノイズは加算的ノイズよりも明確に優れた性能を示しました。ノイズの標準偏差γを増加させると一般的に生成品質が向上し、γ=3.0付近で最良の結果が得られました。
マスキングの効果:70%から90%の高いマスキング率が一貫してより強い性能をもたらしました。ランダムなマスキング率は固定マスキング率よりも優れた性能を示しました。
共同ノイズ除去:潜在ノイズとマスキングの両方を組み合わせることで、特にMARモデルでさらなる性能向上が見られました。
3.3 既存手法との比較
最近の意味蒸留トークナイザーと比較して、l-DeTokはより広い汎用性を示しました。例えば、MARモデルでは、l-DeTokを採用することでFIDが以下のように改善されました。
- MAR-B: FID 2.31 → 1.55(元のMAR-Hの1.55と同等)
- MAR-L: FID 1.78 → 1.35
重要なことに、これらの改善は意味蒸留なしで達成され、はるかに大規模で事前訓練された視覚エンコーダーへの依存を回避しています。
4. 実用性評価
4.1 実装の容易性
l-DeTokの実装は比較的簡単です。既存のVAEベースのトークナイザーに対して、潜在空間でのノイズ追加とマスキング機構を追加するだけで実現できます。コードが公開されているため、研究者や実務者は容易に再現・適用できます。
特別なハードウェアや大規模な事前訓練モデルを必要としないため、計算リソースが限られた環境でも使用可能です。
4.2 計算効率
訓練時の計算オーバーヘッドは、標準的なトークナイザーと比較してわずかです。ノイズ追加とマスキングの操作は軽量であり、主な計算コストは通常のエンコーダー・デコーダーの前向き・後向き伝播から生じます。
推論時には、ノイズとマスキングは無効化されるため、標準的なトークナイザーと同じ計算効率で動作します。
4.3 応用可能性
l-DeTokの中核的なアイデアは汎用的であり、画像トークン化を超えて適用可能です。著者らは、ビデオ生成、アクション生成、タンパク質設計など、より広範な生成モデリング領域での可能性を示唆しています。
また、連続値トークナイザーだけでなく、離散的なベクトル量子化(VQ)トークナイザーへの適用も今後の研究方向として挙げられています。
5. まとめと所感
5.1 論文の意義
この論文は、トークナイザー設計における新しいパラダイムを提示しています。従来のピクセルレベルの再構成精度に焦点を当てたアプローチから、下流タスクとの整合性を重視するアプローチへの転換は、生成モデルの性能向上に大きく貢献する可能性があります。
特に注目すべきは、アーキテクチャの変更なしに、トークナイザーの訓練方法を変えるだけで大幅な性能向上を達成した点です。これは、トークナイザーが生成モデルの性能において果たす重要な役割を再認識させるものです。
5.2 今後の展望
著者らが指摘する制限事項として、訓練と推論の間の不一致があります。デコーダーは主にノイズが注入された潜在埋め込みで訓練されます。しかし、推論時にはほぼノイズのない埋め込みで動作します。この不一致を緩和する方法のさらなる調査により、追加の改善を得られる可能性があります。
また、より広範なデータセットでの評価や、離散トークナイザーへの適用など、多くの興味深い研究方向が残されています。ノイズ除去という基本原則が、今後のトークナイザー設計における新しい研究方向を刺激し、生成モデリングの進歩を加速することが期待されます。