Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

著者 Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

所属 The University of Hong Kong, Shanghai AI Laboratory, Shanghai Jiao Tong University, Huawei Cloud Computing Technologies Co., Ltd.

投稿日 2025年08月29日

カテゴリ cs.AI, cs.RO

arXiv 2508.20072v1 ↗

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

基本情報

arXiv ID: 2508.20072v1 (https://arxiv.org/abs/2508.20072)
著者: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo
所属: The University of Hong Kong, Shanghai AI Laboratory, Shanghai Jiao Tong University, Huawei Cloud Computing Technologies Co., Ltd.
投稿日: 2025年08月29日
カテゴリ: cs.AI, cs.RO

簡単に説明すると

この論文は、Vision-Language-Action（VLA）モデルにおける行動生成に離散拡散モデルを導入した革新的なフレームワークを提案しています。従来の自己回帰的手法や連続拡散手法の限界を克服するため、行動トークンを離散化し、マスク拡散により並列デコーディングを実現します。統一されたTransformerアーキテクチャ内で視覚・言語・行動を一体的に処理し、適応的デコーディング順序と再マスキング機構により高品質な行動系列を生成します。LIBERO、SimplerEnv-Fractal、SimplerEnv-Bridgeでの評価において、自己回帰手法と連続拡散手法の両方を上回る性能を達成しています。

1. 研究概要

1.1 背景と動機

Vision-Language-Action（VLA）モデルは、視覚的入力と言語指示を統合してロボットの行動系列を生成する重要な技術です。現在の主要アプローチは2つのパラダイムに分かれています。

自己回帰（AR）アプローチは、GPTスタイルのTransformerにより行動トークンを逐次予測します（OpenVLA、π₀-FASTなど）。この手法は実装が直接的である一方、左から右への固定的な順序付けによる制約と、エラーの累積問題に直面します。

連続拡散アプローチは、行動軌道全体を連続信号として扱い反復的にノイズ除去を行います（π₀、SmolVLAなど）。複雑なマルチモーダル行動のモデリングが可能ですが、VLMバックボーンからの分離により統一性が欠如し、拡散固有の訓練と反復サンプリングが必要となります。

本研究の動機は、VLMの事前学習済み能力を保持しながら、拡散モデルの柔軟な生成能力を統一されたアーキテクチャで実現することにあります。

1.2 主要な貢献

本研究の主要な貢献は以下の通りです。

離散拡散を用いた初のVLAフレームワークを提案し、視覚・言語・行動を単一Transformerで統一的に処理
離散化された行動チャンクに対する適応的デコーディング順序の実現
「易しいものから難しいもの」への段階的予測により予測品質を向上
複数の改良ラウンドにわたる二次再マスキング機構による一貫性保証と堅牢なエラー訂正
VLMの事前学習済み視覚・言語表現の保持と同一の交差エントロピー損失による訓練
並列デコーディングによる自己回帰ボトルネックの解消と関数評価回数の削減
LIBERO、SimplerEnv-Fractal、SimplerEnv-Bridgeにおける既存手法を上回る性能実証

2. 提案手法

2.1 手法の概要

Discrete Diffusion VLA（DD-VLA）は、Vision-Language-Action政策における行動デコーディングに離散拡散を導入する統一的フレームワークです。

従来手法の課題を解決するため、各行動次元をビニング方式により離散化し固定長チャンクに分割します。これらの行動トークンは離散拡散モデルに適合し、マスク比率によるノイズスケジューリングを通じて段階的に予測されます。

推論時には全行動トークンがマスクされた状態から開始し、「易しいものから難しいもの」という哲学に従い反復的にデコーディングされます。低信頼度トークンの再マスキングにより、柔軟な並列デコーディングと堅牢なエラー訂正を実現します。

統一されたTransformerアーキテクチャ内で、視覚・言語・行動トークンが同一の文脈を共有し、VLMと同様の交差エントロピー損失で訓練されるため、事前訓練済み表現を効果的に保持できます。

2.2 技術的詳細

行動の離散化において、各行動次元は256ビンに量子化され、RT-1およびOpenVLAと同様のビニング方式を採用します。これにより連続行動空間が離散トークン列に変換され、言語モデリングと同様の処理が可能となります。

離散拡散プロセスでは、訓練時に行動トークンの一部をランダムにマスクし、マスクされていない他のモダリティの文脈から予測するよう学習します。マスク比率は直感的なノイズスケジューリングパラメータとして機能し、従来の拡散モデルのノイズレベルに対応します。

推論における適応的デコーディングでは、全トークンがマスクされた状態から開始し、各ステップで最も確信度の高いトークンを優先的に予測します。予測後、低信頼度のトークンは再マスクされ、次の改良ラウンドで再考されます。

二次再マスキングメカニズムは、異なる除去ステップ間での一貫性を保証する重要な技術です。各改良ラウンドで、既に予測されたトークンの信頼度を再評価し、不確実なものを選択的に再マスクします。これにより、前回の予測エラーが後続の予測に与える影響を軽減し、全体的な品質を向上させます。

2.3 新規性

本研究の新規性は以下の点に現れています。

統一アーキテクチャの実現において、従来の連続拡散アプローチとは異なり、VLMバックボーンと同一のTransformer内で行動生成を実行します。これにより専用の拡散ヘッドや特殊な訓練手順が不要となり、事前訓練済み表現の保持が可能となります。

適応的デコーディング順序の導入により、固定的な左右順序に依存する自己回帰手法の制約を克服します。各トークンの予測難易度に基づく動的な順序決定により、より効率的で正確な生成が実現されます。

再マスキングによる反復改良機構は、単一パスの自己回帰生成では不可能な自己訂正能力を提供します。複数の改良ラウンドを通じて、初期の予測エラーを段階的に修正し、最終的な行動品質を向上させます。

離散拡散の行動領域への適用は、従来の言語・画像生成から大きく異なる課題を提起します。物理的制約と時間的一貫性を保ちながら、マルチモーダル文脈に基づく複雑な行動パターンの学習を実現しています。

3. 実験結果

3.1 実験設定

評価は3つの異なるロボティクス環境で実施されました。

LIBEROベンチマークでは、Franka Pandaアームを用いた10の操作タスクで評価しました。各タスクは50のエピソードで構成され、成功率を主要指標として使用しました。

SimplerEnv-Fractalでは、Google Robotを用いたテーブル上での視覚的マッチングタスクを実行しました。視覚的マッチング率と全体的成功率の両方を測定し、視覚認識と行動実行の統合能力を評価しました。

SimplerEnv-Bridgeでは、WidowX Robotによる多様な操作タスクを対象とし、実世界に近い複雑な環境での堅牢性を検証しました。

全実験でRGB入力、自然言語指示、エンドエフェクタ位置のみを使用し、深度情報やアフォーダンス情報は使用しませんでした。これにより、最小限の入力情報での性能を公平に評価しました。

3.2 主要な結果

実験結果では、DD-VLAが既存の自己回帰および連続拡散ベースラインを上回る優れた性能を実証しました。

LIBEROベンチマークにおいて、DD-VLAは96.3%の平均成功率を達成し、OpenVLA-OFT（Discrete）を0.9ポイント上回りました。特に複雑な多段階タスクでの改善が顕著で、適応的デコーディングの効果が明確に現れています。

SimplerEnv-Fractalでは71.2%の視覚的マッチング率と64.1%の全体成功率を記録しました。視覚認識と行動生成の統合において、統一アーキテクチャの利点が実証されています。

SimplerEnv-Bridgeでの49.3%全体成功率は、π₀およびπ₀+FASTを約9.8ポイント上回る大幅な改善を示しました。実世界に近い複雑環境でのロバスト性が確認されています。

関数評価回数（NFE）の観点では、DD-VLAは自己回帰パラダイムより少ない評価回数で優れた性能を達成しました。並列デコーディングと適応的順序決定により、効率性と品質の両立が実現されています。

3.3 既存手法との比較

OpenVLA系統の自己回帰手法との比較では、DD-VLAが固定順序デコーディングの制約を克服し、特に長い行動系列や複雑なタスクでの優位性を示しました。エラーの蓄積問題が軽減され、後続の予測精度が向上しています。

連続拡散ベースラインとの比較では、π₀やSmolVLAに対してDD-VLAが一貫して優れた性能を記録しました。統一アーキテクチャにより、視覚言語表現と行動生成の間でより効果的な情報共有が実現されています。

Transfusion設計を採用したπ₀系統の部分的統合アプローチと比較して、DD-VLAの完全統合手法がより優れた結果を提供しました。専用の拡散ヘッドや特殊訓練が不要な点で、実装とスケーリングの利点が明確です。

アブレーション研究により、適応的デコーディング戦略と再マスキングメカニズムの両方が性能向上に重要な役割を果たすことが確認されました。特に再マスキングは、複雑なタスクでの一貫性保証において不可欠な要素として機能しています。

4. 実用性評価

4.1 実装の容易性

DD-VLAの実装は既存のVLMインフラストラクチャとの高い互換性を持ちます。標準的なTransformerアーキテクチャを基盤とし、追加の専用コンポーネントを最小限に抑えているため、既存のコードベースへの統合が容易です。

行動の離散化プロセスは、RT-1やOpenVLAで実証済みのビニング手法を採用しており、実装の信頼性が保証されています。新しい量子化手法の開発が不要で、既存のツールチェーンを活用できます。

マスク拡散の実装は、BERTスタイルのマスク言語モデリングと類似しており、自然言語処理の経験があるエンジニアには親しみやすい構造です。複雑な確率微分方程式や特殊なサンプリング手順が不要な点も実装上の利点です。

訓練プロセスは既存のVLM訓練パイプラインとほぼ同一で、同じ交差エントロピー損失と最適化手法を使用できます。大規模な改修や新しい訓練技術の習得が不要で、既存チームのスキルセットを活用できます。

4.2 計算効率

並列デコーディングにより、DD-VLAは自己回帰手法と比較して大幅な効率改善を実現します。固定的な順次処理の代わりに、複数トークンを同時に予測することで、推論時間を大幅に短縮できます。

適応的デコーディング順序により、不必要な予測回数を削減できます。易しいトークンから先に解決することで、全体的な収束速度が向上し、計算資源の効率的利用が可能となります。

再マスキングメカニズムは追加的な計算コストを伴いますが、最終的な品質向上により必要な試行回数を削減する効果があります。全体としては、品質と効率のトレードオフで良好なバランスを達成しています。

メモリ使用量の観点では、統一アーキテクチャにより専用の拡散ヘッドが不要となり、モデルサイズの増加を抑制できます。また、反復的なサンプリング過程で必要な中間状態の保存も最小限に抑えられています。

関数評価回数（NFE）の削減により、特に大規模モデルでの推論コスト軽減効果が期待されます。実用的なリアルタイムロボティクスアプリケーションでの展開可能性が高まっています。

4.3 応用可能性

家庭用ロボットから産業用自動化まで、幅広い領域での応用が期待されます。統一アーキテクチャにより、異なるロボットプラットフォーム間での知識転移が容易になり、開発コストの削減が見込まれます。

多段階タスクや長期計画が必要な応用では、適応的デコーディングと再マスキングの利点が特に顕著に現れます。組み立て作業、料理支援、掃除などの複雑なタスクでの実用性が高いと考えられます。

マルチモーダル入力処理能力により、視覚情報と言語指示の複雑な組み合わせに対応できます。人間の自然な指示に基づく直感的なロボット操作インターフェースの構築が可能です。

拡散モデルの生成能力を活用することで、新しいタスクへの汎化性能が期待されます。少数ショット学習や転移学習との組み合わせにより、限られた訓練データでの新タスク習得が可能になる可能性があります。

スケーラビリティの観点では、統一Transformerアーキテクチャがモデルサイズとデータ量の増加に対して良好なスケーリング特性を示すことが期待されます。将来的な大規模VLA研究への道筋を提供しています。

5. まとめと所感

5.1 論文の意義

本論文は、Vision-Language-Actionモデルにおける行動生成への離散拡散の適用という破的な技術的進步を達成しています。従来の自己回帰手法と連続拡散手法の限界を克服し、統一アーキテクチャでの優れた性能を実証した意義は非常に大きいと評価できます。

離散拡散の行動領域への導入は、従来の言語・画像生成とは異なる複雑な課題を伴います。物理的制約、時間的一貫性、継続的な行動系列の必要性を又した統一的ソリューションを提供したことは、研究上の重要な貢献です。

適応的デコーディング順序と再マスキングメカニズムは、従来の固定順序アプローチを超える革新的なアイデアです。単な並列化を超え、各トークンの予測難易度に基づく動的な順序決定と反復改良機構は、将来の系列生成モデルに幅広い影響を与える可能性を秘めています。

実用的な観点からは、既存VLMインフラストラクチャとの高い互換性、同一の訓練手順、簡潔な実装等の利点が実用化の障壁を低くしています。特に、拡散特有の訓練や特殊なサンプリング手順が不要な点は、既存チームのスキルセットを活用できる重要な利点です。

5.2 今後の展望

今後の研究方向として、より高度な行動パターンへの対応が期待されます。現在の固定長チャンクアプローチから、可変長や階層構造を持つ行動表現への拡張が実現すれば、より複雑で長期間のタスクへの対応が可能になるでしょう。

マルチモーダル統合の更なる深化も重要な方向性です。現在の深度情報やアフォーダンス情報を含まない入力から、よりリッチなセンサー情報を統合した統一的モデリングへの発展が期待されています。

スケーリング特性の研究も重要な課題です。統一Transformerアーキテクチャが言語モデルで示したスケーリング法則が、VLAタスクでも当てはまるかどうかの検証は、将来の大規模VLAシステム構築における重要な課題です。

効率性の更なる改善も必要です。現在の再マスキングメカニズムは品質向上に寄与しますが、追加的な計算コストも伴います。より効率的な予測戦略や適応的な収束条件の開発により、結果品質を維持しながら計算効率を最適化する余地があります。

異なるロボットプラットフォームやタスクドメインへの一般化も重要な研究方向です。現在の評価はLIBERO、SimplerEnvなどの限られた環境で実施されていますが、より多様で複雑な実世界環境での検証が必要です。

最終的には、安全性と信頼性の向上も実用化に向けた重要な課題です。不確実性の定量化、エラー検出メカニズム、フェイルセーフ動作等、実際のロボティクスシステムで求められる堅牢性を実現するための技術開発が不可欠でしょう。これらの進歩により、実用的な家庭用・産業用ロボットシステムへの道筋が開かれることでしょう。