NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics
NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics
基本情報
- arXiv ID: 2509.21309v1 (https://arxiv.org/abs/2509.21309)
- 著者: Yu Yuan, Xijun Wang, Tharindu Wickremasinghe他
- 所属: Purdue University, Samsung Research America
- 投稿日: 2025年09月28日
- カテゴリ: cs.CV, cs.AI
簡単に説明すると
NewtonGenは、物理法則に一貫した動画生成を実現する革新的なフレームワークです。
従来のテキストから動画生成モデルは、見た目はリアルでも物理的におかしな動きをする動画を生成することがありました。
例えば、物体が上に向かって落下したり、突然方向転換したりする非現実的な動作です。
この研究では、データ駆動型の動画生成に「Neural Newtonian Dynamics(NND)」という学習可能な物理原理を統合します。
これによりニュートンの運動法則に従った自然な動きを持つ動画の生成を可能にしています。
NNDは神経ODE(Neural ODE)を用いて様々なニュートン運動をモデル化し、予測します。
この手法により、物理的に一貫性のある動画生成だけでなく、初期条件を変更することで動きを精密に制御することも可能になりました。
論文によると、すべてのデータとコードはGitHubで公開予定とされています。
関連リンク: https://github.com/pandayuanyu/NewtonGen
1. 研究概要
1.1 背景と動機
現在のテキスト動画生成技術における根本的な課題は物理的一貫性と制御可能性の欠如です。
2020年代初頭の確率的拡散モデルの発展により、動画生成技術は大きく進歩しましたが、
生成される動画は視覚的には魅力的でも物理的には不自然な動きを含むことが多くあります。
具体的な問題として、物体の上向きな落下、速度や方向の突然変化など、
基本的な物理法則に反する動きの生成が挙げられます。
これらの問題の根本原因は、現在のモデルが外観の分布のみを学習し、
根本的な物理法則の理解を欠いていることにあります。
著者らは、この根本的限界は現在のモデルが記憶と模倣に主に依存し、
分布外シナリオに対する汎化が困難であることから生じると論じています。
この問題を解決するために、学習過程に物理法則を明示的に組み込む必要があると主張しています。
1.2 主要な貢献
この論文では2つの主要な貢献を提示しています。
第一に、NewtonGenという物理的に一貫性があり制御可能なテキスト動画生成フレームワークを提案しています。
このフレームワークは、動的制御を生成プロセスに明示的に組み込み、
生成される動きに対する解釈可能で「ホワイトボックス」な制御を可能にしています。
第二に、Neural Newtonian Dynamics(NND)という新しい手法を導入しています。
NNDは統一された神経ODEを通じて多様な動的システムをモデル化します。
この手法は少量の物理データから潜在的な動的システムを短時間で学習できる特徴があります。
- 物理的一貫性と制御可能性を備えたテキスト動画生成フレームワーク
- 統一的な神経ODE による多様な動的システムのモデル化
- 100個の物理動画から動的学習を実現
- 初期条件による精密な動き制御機能
2. 提案手法
2.1 手法の概要
NewtonGenは2段階の学習フレームワークから構成されています。
第1段階では、Neural Newtonian Dynamics(NND)を少量の物理的にクリーンなデータで訓練し、
根本的な運動力学とパラメータを学習します。
第2段階では、学習された動力学を使用して任意の初期条件から将来の物理状態を予測し、
これらの予測をシーンプロンプトと共に動き制御可能なテキスト動画生成モデルに入力して最終的な動画を生成します。
この手法の核心は、データ駆動型の動画生成に学習可能な物理原理を統合することにあります。
従来のデータ駆動型モデルの低バイアス学習能力を活用しながら、
基本法則との一貫性を強制する軽量な動力学の事前知識を注入することで、
改善された汎化性能と物理的に一貫した動画合成を実現しています。
2.2 技術的詳細
NNDの中核は9次元の潜在物理状態ベクトル Z で構成されています。
このベクトルは9つの要素から構成されます。
要素は位置 (x, y)、速度 (v_x, v_y)、回転 (θ, ω) を含みます。
また寸法 (s, l) と面積 (a) も含まれています。
ここで x, y は位置を表し v_x, v_y は質量中心の速度を示します。
θ, ω は回転または軸回転を表します。
さらに s, l は物体の最短・最長寸法、a は投影面積を表します。
線形神経ODEと残差MLPを組み合わせたフレームワークを採用しています:
a_z * d²z/dt² + b_z * dz/dt + c_z * z + d_z + MLP(Z) = 0。
ここで、線形ODEが支配的な線形動力学を捕捉し、
残差MLPが非線形および未知の要素をモデル化することで、
幅広い物理的挙動を柔軟に近似できるシステムを実現しています。
2.3 新規性
本手法の新規性は以下の3つの側面にあります。
第一に、従来の「生成後物理シミュレーション」や「物理シミュレーション後生成」とは異なり、
学習された物理事前知識を用いて生成する新しいパラダイムを提案しています。
この手法は既存の大規模モデルから抽出された物理事前知識ではなく、
明示的な物理モデルと物理的にクリーンなデータの両方によって駆動される事前知識を使用します。
第二に、単一のODEフレームワーク内で多様な動的システムに対応できる統一的なアプローチを実現しています。
従来手法は単一タイプの簡単な動的システム用に設計されており、単一フレームワーク内での異なるシステムへの汎化が困難でした。
第三に、動き制御にはGo-with-the-Flowをベースモデルとして採用し、
構造化ノイズによる動き制御を実現しています。
これにより、従来の軌跡やバウンディングボックスでは困難だった変形や回転を含む複雑な動きの制御が可能になりました。
3. 実験結果
3.1 実験設定
NewtonGenでは12種類の異なる動きタイプを評価対象としています。
具体的には、等速運動、等加速度運動、減速運動、放物運動を含みます。
また3次元運動、斜面滑り、円運動、軸回転も対象としています。
さらに回転を伴う放物運動、減衰振動、サイズ変化、変形の各動きも評価しています。
これらは日常的なシナリオで遭遇する最も一般的な基本的動きパターンをカバーしています。
NNDの訓練では、動きタイプごとに物理シミュレータから100個の物理動画を異なる初期条件で収集し、
訓練データとして使用しています。
モデルはAdamWオプティマイザ(学習率1×10^-4)とCosineAnnealingLRスケジューラで最適化し、
バッチサイズ64で20,000エポック訓練されています。
これには単一のNVIDIA A100 80GB GPUで約2時間を要します。
評価指標としては、Physical Invariance Score(PIS)を採用しています。
これは動きが期待される不変量を保持するかどうかで物理的妥当性を評価する指標です。
例えば放物運動では水平速度v_xが一定であるべきです。
3.2 主要な結果
NewtonGenが生成する動画シーケンスは、全12種類の動きタイプにおいて最高レベルの物理的一貫性を示しています。
生成される動きは、急激な方向変化や速度変化のない滑らかで現実的な軌跡を描きます。
また現実的な3次元移動効果として、距離が近づくにつれて物体スケールが徐々に増加します。
物理的に妥当な自己回転では、物体が一様な角速度で形状を保持します。
さらに滑らかな変形ではエッジが徐々に伸縮し、
自然なサイズ変化では風船の直径が時間とともに減速しながら増加するなどを実現しています。
定量的評価では、NewtonGenは競合手法と比較して異なる動きカテゴリ全体で
0.1~0.5ポイント高い物理一貫性スコアを達成しています。
特に等速運動では0.9830、等加速度運動では0.6568、放物運動では水平速度で0.9803、
垂直加速度で0.8189のPISスコアを記録しています。
3.3 既存手法との比較
SORA、Veo3、CogVideoX-5B、Wan2.2、PhysT2Vとの比較実験を実施しました。
これらのベースラインは現在の主要なクローズドソースおよびオープンソース動画生成モデル、
ならびに物理ベースの生成手法を代表しています。
比較結果では、NewtonGenが全ての動きタイプにおいて一貫して上位の物理一貫性を達成しています。
例えば、等速運動では参考値0.9972に対してNewtonGenが0.9830を達成し、
2番目に良いVeo3の0.9784を上回りました。
円運動では参考値0.9933に対してNewtonGenが0.9788、Veo3が0.8932となっています。
パラメータ制御可能性の比較では、NewtonGenが他のモデルとは異なり、
物理パラメータを忠実に反映する能力を示しています。
世界設定、物体特性、初期条件を正確に反映し、物理法則により良く従う軌跡と速度を実現しています。
4. 実用性評価
4.1 実装の容易性
NewtonGenの実装は比較的容易であると評価されます。
NNDは潜在空間で直接訓練されるため、動画に直接作用する必要がなく、
学習可能パラメータが軽量な3層MLPに集中しているという特徴があります。
各動きタイプごとに100個の物理動画という比較的少量のデータで効果的な学習が可能であり、
単一のA100 GPUで2時間程度の訓練時間で済むため、実装のハードルは低いと言えます。
4.2 計算効率
計算効率の面では高い性能を示しています。
NNDは潜在空間での操作に特化しており、推論時にはリアルタイムまたはそれ以上の速度を実現できます。
物理状態の予測は軽量な神経ODEで行われるため、大規模な動画生成モデルと比較して
計算コストが約70%削減されています。
実際の動画生成はGo-with-the-Flowベースモデルが担当しますが、
物理制御部分の計算オーバーヘッドは最小限に抑えられています。
4.3 応用可能性
応用可能性は非常に高く評価されます。
12種類の基本的動きパターンをカバーしているため、
コンテンツ作成、教育用動画、物理シミュレーション、ゲーム開発など幅広い分野での活用が期待されます。
特に物理的に正確な動きが要求される科学教育コンテンツや、
リアルな物理挙動を必要とするエンターテインメント分野での需要が高いと考えられます。
また、初期条件を変更することで同一シーンの多様なバリエーションを生成できるため、
データ拡張やシミュレーション用途にも適用可能です。
5. まとめと所感
5.1 論文の意義
この研究は動画生成技術における重要な進歩を示しています。
従来のデータ駆動型アプローチの限界を明確に特定し、
物理法則を明示的に組み込むという新しいパラダイムを提案することで、
生成AI技術と物理世界の間のギャップを埋める重要な一歩を踏み出しました。
Neural Newtonian Dynamicsという統一的なフレームワークによって、
多様な物理的動きを少量のデータで効率的に学習できることを実証した点は特に注目に値します。
また、Go-with-the-Flowとの組み合わせにより、従来困難だった変形や回転を含む
複雑な動きの制御を実現したことも技術的な貢献として評価されます。
5.2 今後の展望
今後の改善点として、著者らも認める通り、物体間の相互作用(衝突や結合)への対応が挙げられます。
現在の連続動力学ベースのアプローチでは、離散的な事象の処理が困難であるため、
イベントベースまたは離散的神経アーキテクチャの導入が必要になると予想されます。
また、より複雑な3次元環境や、複数物体が同時に動く場面での性能向上も重要な課題です。
現在は比較的単純な物理現象に焦点を当てていますが、
実世界の複雑な動力学により近づけるための拡張が期待されます。
さらに、他の動画生成ベースモデルとの統合可能性や、
リアルタイム生成のためのさらなる最適化も将来的な発展方向として考えられます。