Astra: General Interactive World Model with Autoregressive Denoising

著者 Yixuan Zhu, Jiaqi Feng, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu

所属 Tsinghua University, Kuaishou Technology

投稿日 2024年12月11日

カテゴリ cs.AI, cs.LG

arXiv 2512.08931v1 ↗

Astra: General Interactive World Model with Autoregressive Denoising

基本情報

arXiv ID: 2512.08931v1 (https://arxiv.org/abs/2512.08931)
著者: Yixuan Zhu, Jiaqi Feng, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu
所属: Tsinghua University, Kuaishou Technology
投稿日: 2024年12月11日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

Astraは、従来のテキストから動画生成モデルの限界を克服し、真に「インタラクティブ」な世界モデルを実現した革新的な研究です。従来のSoraなどの動画生成AIは高品質な動画を作成できますが、ユーザーの操作や指示にリアルタイムで反応する「インタラクティビティ」が不足していました。

本研究では自動回帰とノイズ除去を組み合わせた独創的なアーキテクチャを提案し、自動運転、ロボット操作、カメラ制御など様々な実世界シナリオでユーザーの行動指示へ即座に反応しながら長時間の一貫した動画予測を可能としている。特に注目すべきは、異なる種類のアクション（カメラ動作、ロボット動作など）を統一的に処理するMixture of Action Experts（MoAE）機能と、過去の視覚情報への過度な依存を防ぐノイズ注入手法である。

プロジェクトページ: https://eternalevan.github.io/Astra-project/
GitHubリポジトリ: https://github.com/EternalEvan/Astra

1. 研究概要

1.1 背景と動機

近年の動画生成技術の発展により、SoraやCogVideoXなど高品質な動画を生成するAIモデルが登場していますが、これらのモデルには根本的な限界があります。既存のtext-to-video（T2V）やimage-to-video（I2V）モデルは、プロンプトや参考画像に基づいて短い自己完結型の動画クリップを生成できるが、外部からの刺激（エージェントの移動、視点変更、制御信号など）へ適応的に応答する長期間の一貫したロールアウトを生成する能力が不足している。

真の世界モデルへ求められる特性は「インタラクティビティ」、つまり任意の瞬間での任意のアクション入力へ動的に応答して生成を適用させる能力である。拡散モデルはグローバルなプロンプトやシーン属性で条件付けできるが、そのような条件付けメカニズムでは細粒度のオンラインインタラクションは実現できない。

また、既存の動画生成器は拡散モデルの有限時間窓へ制約され、長時間の動画シーケンス生成は困難である。最近の研究では動画継続技術や自動回帰と拡散を組み合わせたハイブリッドフレームワークを探索しているが、履歴フレームとの一貫性維持と新しい入力への応答性のバランスを取ることに苦労し、長期予測では誤差の蓄積により品質と一貫性に劣化の問題がある。

1.2 主要な貢献

本研究の主要な貢献は以下の4点である。

第一に、自動回帰ノイズ除去パラダイムの提案である。事前学習済み動画拡散バックボーンにアクション認識アダプターを組み込み、拡散モデルの高い生成品質を保持しながらエージェントアクションへの正確な条件付けを可能とした。このパラダイムにより、ユーザー入力へ即座に応答する一貫した未来を生成できる。

第二に、ノイズ拡張履歴メモリ機構の開発である。長期時間における一貫性とアクション応答性のバランスを取る新しいアプローチを提案した。「ノイズ・アズ・マスク」戦略により訓練時の履歴フレームをソフトに破損させ、視覚コンテクストの支配力を減らす。これにより次の動画チャンクの予測時に履歴とアクション手がかりの両方を統合するようモデルを強制する。

第三に、Mixture of Action Experts（MoAE）の導入である。現実世界のインタラクティブ環境は異なるアクションモダリティ（カメラ制御、身体ポーズ、ロボット操作など）を含むため、学習可能なルーティングメカニズムの下でモダリティ固有のエキスパートを異なるアクションタイプへ特化させるフレームワークを設計した。これにより、多様なインタラクション信号を単一フレームワーク内で統合できる。

第四に、包括的実験とベンチマークの確立である。Sekai、SpatialVID、RT-1、nuScenes、Multi-Cam Videoなど複数の多様なオープンソースベンチマークでの広範囲な実験を実施した。Astraがアクション駆動動画予測において最先端性能を達成し、高いインタラクティビティを維持しながら視覚的一貫性と動的一貫性を保つことを実証した。

2. 提案手法

2.1 手法の概要

Astraの核心は自動回帰ノイズ除去フレームワークにある。このフレームワークは自動回帰の長期間モデリング能力と拡散の高忠実度における合成能力を統合する。動画シーケンスをチャンク$\bm{z}^{1:N}$へ離散化し、生成目標は$p(\bm{z}^{1:N}) = \prod_{i=1}^N p(\bm{z}^i \mid \bm{z}^{<i})$となる。

各ステップで次のチャンク$\bm{z}_{t+1}$は、フローマッチングで訓練されたノイズ除去プロセスを通じて予測される。推論時にはノイズから$\bm{z}^{i+1}$をノイズ除去により取得し、それを将来チャンク予測のための履歴へ追加する。この反復的なAR-ノイズ除去ループにより、長範囲で一貫性のある高品質な動画予測を可能とする。

インタラクティビティを実現するため、Astraは事前学習済み動画DiTをAction-aware flow Transformer Adapter（ACT-Adapter）で拡張する。アクションエンコーダーでアクションを動画潜在と整合する特徴空間へ投影し、得られたアクション特徴を各ブロックで要素単位加算を通じてノイズ除去モデルへ注入する。これによりアクション信号による潜在表現の直接変調を保証する。

2.2 技術的詳細

Action-aware Flow Transformer Adapter（ACT-Adapter）は、事前学習済み動画DiTのself-attentionレイヤーのみを調整可能とし、他のパラメーターは凍結することで事前学習知識の最大再利用を図っている。各self-attentionブロック後には恒等行列で初期化された単一線形層の軽量アダプターモジュールを挿入する。これにより事前学習バックボーンの安定性を維持しながら、アクション認識変換を段階的に学習できる。

Action-Free Guidance（AFG）では、アクション効果を強化するためクラスフリーガイダンス（CFG）にインスパイアされたアクションフリーガイダンス機構を提案した。訓練時にアクション条件をランダムドロップし、アクション入力なしで予測を強制する。推論時にはガイド付き速度場$\bm v_{\text{guided}} = \bm v_\theta(\bm z_t, t, \emptyset) + s \cdot \left( \bm v_\theta(\bm z_t, t, \bm a) - \bm v_\theta(\bm z_t, t, \emptyset) \right)$を計算し、アクション効果を鮮鋭化してユーザー入力への正確な応答を生成する。

ノイズ拡張履歴メモリでは「視覚的な慣性」（過去の視覚情報への過度の依存でユーザーアクションを見落とす傾向）を緩和するため、「ノイズ・アズ・マスク」戦略を採用している。条件付け動画にランダムノイズを注入して情報内容を劣化・ぼかすことで視覚条件付けの支配力を減少させる。この設計により、モデルはクリーンフレームを直接コピーできなくなり、生成にアクション手がかりを統合するよう強制される。

Mixture of Action Experts（MoAE）では、カメラ観測、身体ポーズ、離散アクションコマンドなど異種信号の構造とスケールの違いに対処するため、学習可能なルーター機構の下で異なるモダリティを専門エキスパートにルーティングする。これによりノイズ除去モデル用の統一アクション表現を生成するモジュラーフレームワークを設計している。各エキスパートは特定のモダリティへ特化しつつ、共有潜在空間での統合を実現している。

2.3 新規性

Astraの技術的新規性は以下の点にある。

アーキテクチャレベルの革新として、既存の動画生成モデルは単一パスで動画を生成するのに対し、Astraは自動回帰ノイズ除去の組み合わせにより高品質合成とインタラクティブ制御可能性の両方を実現している。これは従来の拡散モデルでは困難だった即座のアクション応答を可能とする。

履歴とアクションのバランス調整として、従来手法は履歴長を短縮するか複雑なアーキテクチャ変更で対処していたのに対し、Astraはノイズ注入による視覚条件付け劣化という優雅な解決策を提示している。この手法はアーキテクチャ変更や追加学習パラメーターを不要としつつ、視覚的な慣性の問題を効果的に解決する。

モダリティ統合アプローチとして、MoAEは異種アクションモダリティを統一フレームワーク内で処理する新しいアプローチである。従来の共有エンコーダーアプローチと比較して専門化と汎用性のバランスを取り、実世界の多様なタスク（ロボティクス、ナビゲーション、カメラ制御など）に対応している。

誘導メカニズムの拡張として、Action-Free Guidanceは既存のClassifier-Free Guidanceをアクション条件付けへ適応させた新規アプローチで、アクション効果の増幅と制御精度の向上を同時に実現している。

3. 実験結果

3.1 実験設定

Astraの評価には多様な現実世界シナリオをカバーする包括的なデータセットを使用した。具体例として、nuScenesは車両ポーズ予測用の自動運転データセットである。Sekai & SpatialVIDは豊富なカメラアノテーション付き大規模in-the-wild動画である。Multi-Cam Videoは合成マルチビューシーケンスである。RT-1（Open X-Embodiment経由）はロボットアクション軌跡データである。

全ての動画は480pへリサイズ・クロップされ、アクションアノテーションはVideo VAEの時間圧縮に合わせて4フレームごとの補間により時間的に整列している。評価では多様な現実世界シナリオをカバーするよう設計されたAstra-Bench（各データセットから20のホールドアウトサンプル）を構築した。

訓練は8× H800（80G）GPUにより実施され、GPU当たりのバッチサイズは1、AdamWオプティマイザーによる学習率1e-5、30エポックで約24時間にて収束した。3D VAEの潜在空間による訓練が行われ、ピクセル空間では条件フレーム数は[1, 128]からランダムサンプリング、ターゲットフレーム数は33による固定としている。

3.2 主要な結果

Astra-BenchでのWan-2.1、Matrix-Game、YUMEなど最先端の動画生成・世界モデリング手法との比較において、Astraは全メトリクスによる一貫して優れた性能を示した。

視覚品質の向上として、Astraは既存手法と比較してより鮮明な詳細、滑らかな動き、強い時間的一貫性を実現し、主体一貫性、背景一貫性、動きの滑らかさ、美的品質などの視覚品質メトリクスによる高いスコアを獲得している。

指示追従能力として、人間評価により生成された軌跡が意図されたカメラ動きやアクション方向により忠実に追従することが確認された。従来手法は長いロールアウト中に誤差蓄積とドリフトに苦しむ一方、Astraは拡張された範囲にわたって安定性を維持している。

長期の一貫性として、96フレーム（約4.8秒）の長期生成において、Astraは時間的な一貫性を保ちながらアクション応答性を維持し、従来手法による品質劣化や矛盾を回避している。

3.3 既存手法との比較

アブレーション研究により、Astraの各コンポーネントの有効性を確認した。

ACT-Adapterは従来のクロスアテンションアダプターと比較して、軽量なACT-Adapterによるより強いアクション条件付け性能を実現することを実証した。ほとんどのパラメーターを凍結しつつアダプターとアテンションレイヤーのみを調整することで、生成知識の最大再利用を確保している。

Action-Free Guidanceは、AFGなしの構成と比較して推論時のアクション信号の影響を効果的に増幅し、安定性を保ちながらコマンドに対するより鮮鋭な応答を実現することを確認した。

ノイズ拡張メモリは、ノイズなしの構成と比較して提案されたノイズ・アズ・マスク戦略による履歴コンテクストのアクション入力に対する支配力を弱める。これにより視覚的な慣性の問題を緩和し、突然のまたは予期しないアクションでより強い応答性を実現しながら長期時間における一貫性と動画生成の安定性を維持することを実証した。

MoAEは、他のモダリティを処理できないためカメラアクションデータのみでの訓練された構成と比較して、MoAEによるアクション条件付き動画生成を著しく改善することを確認した。単一共有アクションエンコーダーを上回る性能により、モジュラー専門化の利点を実証している。

4. 実用性評価

4.1 実装の容易性

Astraの実装は既存の事前学習済み動画拡散モデル（特にWan-2.1）をベースとしているため比較的容易である。主要なアーキテクチャ変更は軽量なアダプターモジュールの追加のみで、既存のDiTバックボーンのほとんどのパラメーターを凍結できるため、計算コストと実装複雑性を相当程度削減している。

ACT-Adapterは各self-attentionブロック後の単一線形層として実装され、恒等行列による初期化のため訓練の安定性を確保している。Action-Free Guidanceは推論時のみの技術であり、追加の訓練パラメーターを必要とせず、既存のClassifier-Free Guidanceの知見を活用できる。

ただし、MoAEの実装は異なるアクションモダリティの専門エキスパートとルーティングメカニズムを含むため、やや複雑となる。また、多様なデータセット（nuScenes、RT-1など）の統合と前処理には相当な工数を必要とする。

4.2 計算効率

Astraは自動回帰生成の性質上、長い動画シーケンス生成には相当な計算リソースを要する。訓練は8× H800 GPUにより約24時間を必要とし、推論では480×832解像度、20FPS、96フレームの動画生成に50推論ステップを使用している。

しかし、事前学習済みバックボーンの大部分を凍結することで、ファインチューニングコストは相当程度削減している。また、ノイズ・アズ・マスク戦略は推論時にクリーンな履歴フレームを使用できるため、追加の計算オーバーヘッドはない。

MoAEのルーティングメカニズムは計算コストを増加させるが、専門化により各エキスパートは比較的小さく設計でき、全体的な効率性を保っている。長期生成における品質維持と誤差蓄積の回避により、従来手法と比較して実用的な計算効率を実現している。

4.3 応用可能性

Astraの応用範囲は非常に広く、以下の分野による実用性を期待される。

自動運転システムでは、nuScenesでの実験により実証されたように、車両の動作予測と環境の将来状態シミュレーションへ活用できる。交通状況の変化に対するリアルタイム応答と長期における安全性の計画の両方をサポートする。

ロボティクスでは、RT-1データでの評価によりロボットアームの操作計画と環境インタラクションのシミュレーションができる。MoAEにより異なるロボット制御インターフェース（位置制御、力制御など）を統一的に処理できる。

VR/ARアプリケーションでは、カメラ制御とマルチビュー生成能力により、没入型環境でのリアルタイムシーン生成とユーザーインタラクションができる。探索とナビゲーションのシミュレーションにも適用できる。

ゲーム開発では、インタラクティブな世界シミュレーション機能によりプレイヤーの行動に応答する動的ゲーム環境の生成ができる。NPCの行動予測と環境変化のリアルタイムレンダリングをサポートする。

教育・訓練シミュレーションでは、多様な現実世界シナリオのシミュレーション能力により安全な環境での技能訓練と仮想体験学習へ活用できる。

制限事項として、現在の実装は480p解像度へ制限され、非常に高解像度のアプリケーションには追加の最適化を必要とする。また、極端に長い時間範囲（数分以上）では計算コストと誤差蓄積の問題を残存する可能性がある。

5. まとめと所感

5.1 論文の意義

Astraは動画生成技術と世界モデリングの境界を画期的に前進させた重要な研究である。従来のテキスト・画像から動画生成モデルは「受動的」であったのに対し、真の意味でのインタラクティビティを実現した点は、AI研究における大きな転換点を表している。

技術的な革新性において、自動回帰とノイズ除去の組み合わせ、ノイズ・アズ・マスク戦略、MoAEによる統一的なアクション処理など、複数の独創的アイデアを巧妙に統合している。特に「視覚的な慣性」の問題を特定し、ノイズ注入により解決したアプローチは理論的かつ実用的に優れたソリューションである。

実験設計の包括性も特筆すべき点で、自動運転、ロボット制御、カメラ操作など多様な領域でのベンチマーキングにより汎用性と実用性の両方を実証している。これまでの研究は特定ドメインに限定されがちだったのに対し、統一フレームワークでの多領域対応は研究分野の成熟度を示している。

理論的基盤も堅牢で、フローマッチング理論の上に構築された数学的定式化と、Action-Free Guidanceの設計は既存のClassifier-Free Guidanceの自然な拡張として位置づけられ、理論的な一貫性を保っている。

5.2 今後の展望

技術的発展の方向性として、解像度の向上を最も重要な課題とする。現在の480p制約を4K以上に拡張し、より詳細で実用的な視覚シミュレーションを実現することを期待される。また、より長時間（数分から数時間）の一貫した生成への拡張も重要な研究方向である。

MoAEアーキテクチャのさらなる拡張により、音声、触覚、匂いなど他のセンサーモダリティの統合も興味深い発展方向である。これにより、真にマルチモーダルなインタラクティブシミュレーション環境を構築できる可能性がある。

リアルタイム性の向上も重要な課題で、現在の50推論ステップを削減し、VRアプリケーションやライブシミュレーションに対応できるレスポンス速度の実現を求められる。知識蒸留や効率的なサンプリング手法の活用を有効な解決策となりうるであろう。

応用面では、デジタルツインの構築、メタバース環境の生成、AI教師による個別の学習環境など、社会実装につながる研究発展を期待される。特に、物理法則の学習と統合により、より現実的で予測可能なシミュレーション環境を構築することで、産業応用の範囲を拡大するであろう。

安全性とロバスト性の観点から、敵対的攻撃への耐性や、予期しないアクション入力に対する安定性の向上も重要な研究課題である。実世界展開においては、これらの信頼性確保を不可欠とする。

最終的に、Astraが示したインタラクティブ世界モデリングのパラダイムは、AI研究の新しい章を開いており、AGI実現に向けた重要な構成要素としての役割を果たすことを期待される。