Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

著者 Ke Fan, Shunlin Lu, Minyue Dai
所属 Shanghai Jiao Tong University, CUHK Shenzhen, Fudan University, HKUST
投稿日 2025年07月11日
カテゴリ

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

基本情報

  • arXiv ID: 2507.07095v1 (https://arxiv.org/abs/2507.07095)
  • 著者: Ke Fan, Shunlin Lu, Minyue Dai
  • 著者(続き): Runyi Yu, Lixing Xiao, Zhiyang Dou
  • 著者(続き): Junting Dong, Lizhuang Ma, Jingbo Wang
  • 所属: Shanghai Jiao Tong University, CUHK Shenzhen, Fudan University, HKUST
  • 所属(続き): Zhejiang University, HKU, Shanghai AI Laboratory, East China Normal University
  • 投稿日: 2025年07月11日
  • カテゴリ: ICCV 2025投稿予定
  • コード: https://github.com/VankouF/MotionMillion-Codes

簡単に説明すると

人間の動作生成タスクをゼロショット時代へと推し進める画期的な研究です。
従来の手法は限られたデータセットのため汎化性能に課題がありましたが、本研究では200万シーケンス以上、2000時間以上の動作データを含む巨大データセット「MotionMillion」を構築しました。
このデータセットとスケーラブルなアーキテクチャを組み合わせることで、7Bパラメータの大規模モデルを訓練しました。
複雑で構成的な動作の生成や、ドメイン外の動作に対しても高い性能を発揮するゼロショット動作生成を実現しています。
特に注目すべきは、FSQ(Finite Scalar Quantization)にウェーブレット変換を組み合わせることで、離散化による動作のジッターを抑制する新しい手法を提案している点です。

1. 研究概要

1.1 背景と動機

テキストから人間の動作を生成するタスクは、コンピュータビジョン、グラフィックス、ロボティクスにおいて重要な研究分野です。
テキスト、画像、3D、動画などの生成モデルが大規模化により優れたゼロショット能力を獲得している一方で、動作生成分野は大きく遅れをとっています。
この遅れは、アルゴリズムの革新不足ではなく、データ規模とモデルアーキテクチャの本質的な制限によるものです。
既存のデータセット(HumanML3DやMotionX)は規模が限定的で、結果として生成されるモデルの汎化能力が制限されています。

1.2 主要な貢献

本研究は、人間の動作生成をゼロショット時代へと導くための3つの重要な要素を探求しています。
1つ目は大規模で高品質な動作データセットの構築です。Web上の動画から効率的に動作を抽出・アノテーションするパイプラインを開発しました。
2つ目はスケーラブルなモデルアーキテクチャの設計です。LLAMAアーキテクチャをベースに、1Bから7Bパラメータまでスケールアップしました。
3つ目は効果的な評価ベンチマークの構築です。126の多様なプロンプトを含むMotionMillion-Evalを提案しています。
さらに、FSQにウェーブレット変換を組み合わせることで、離散化によるジッターを効果的に抑制する新手法も提案しています。

2. 提案手法

2.1 手法の概要

提案手法は大きく2つのステージから構成されています。
第1ステージは計算量を削減した動作トークン化で、FSQ(Finite Scalar Quantization)を使用して動作データを離散的に表現します。
第2ステージはスケーラブルな動作生成で、LLAMAアーキテクチャを活用してテキストから動作トークンを生成します。
特に重要な点は、FSQの離散化によるジッター問題を解決するため、エンコーダの前にウェーブレット変換、デコーダの後に逆ウェーブレット変換を適用している点です。

2.2 技術的詳細

MotionMillionデータセットの構築には、6段階のパイプラインを使用しています。
まず(1)ショット分割でPySceneDetectを使用してシーン変化を検出します。
次に(2)人物検出でGrounding DINOとSAM2を組み合わせた粗から細への検出アプローチを採用します。
(3)境界ボックス信頼度フィルタリングで低品質な検出結果を除去し、(4)遷移フィルタリングで突然の位置変化を検出します。
(5)SMPL動作推定ではGVHMRを使用して高品質な人体パラメータを取得します。
最後に(6)動作フィルタリングでジャークメトリクスと方向変化を使用してアウトライアを除去します。

動作表現では、HumanML3D形式の逆運動学エラーを回避する改良された表現を使用しています。
各ポーズには、ルートの線形速度、角速度、ローカルな関節位置、速度、回転が含まれます。

2.3 新規性

既存手法との主な違いは以下の点です。
第一に、ウェーブレット変換を使用してFSQの離散化によるジッターを抑制する新しいアプローチを提案しています。
第二に、200万シーケンス以上を含む史上最大規模の動作データセットを構築し、各動作に対して20種類の言い換えテキストを生成しています。
第三に、混合アテンション戦略(単語トークン間は双方向、動作シーケンス間は因果的)を採用したスケーラブルなアーキテクチャを設計しています。
第四に、ゼロショット能力を評価するための包括的なベンチマークを提案しています。

3. 実験結果

3.1 実験設定

MotionMillionデータセットで1B、3B、7Bの3つのモデルサイズを訓練しました。
評価には、提案するMotionMillion-Evalベンチマーク(126プロンプト、7カテゴリ)を使用しました。
カテゴリには、日常生活、スポーツ、ダンス/芸術、戦闘、交通関連、非人間的行動、その他が含まれます。
評価指標として、テキスト整合性、動作の滑らかさ、物理的妥当性の3つの側面を評価しました。

3.2 主要な結果

FSQ再構成性能では、MotionMillionで訓練したFSQがScaMo(MotionUnionで訓練)を上回りました。
ウェーブレット変換により、加速度偏差(ジッター指標)が約70%減少し、MPJPEも改善しました。
モデルスケールが増加するにつれて(1B→3B→7B)、FIDとR-precisionが段階的に改善しました。
7Bモデルは、抽象的な概念(ゾンビの歩き方など)の理解、複雑な構成的指示への追従、多様なカテゴリーでの動作生成において優れた能力を示しました。

3.3 既存手法との比較

3BモデルでScaMo-3Bと比較すると、すべての指標で20%以上上回りました。
7Bモデルは、芸術/ダンスと非人間的な行動以外のすべてのカテゴリーでScaMo-3Bと同等以上の性能を達成しました。
MotionMillionデータセットの品質により、MotionUnionよりも優れた汎化性能を実現し、HumanML3Dに匹敵する品質を達成しました。
動作の滑らかさでは、MDMやT2M-GPTと同等の性能を示しました。

4. 実用性評価

4.1 実装の容易性

提案手法は、既存のディープラーニングフレームワークで容易に実装可能です。
FSQはVQ-VAEよりもシンプルです。
補助損失が不要なため、訓練も安定しています。
ウェーブレット変換の追加も標準的な信号処理ライブラリで実装できます。
データ構築パイプラインは、オープンソースのツール(Grounding DINO、SAM2、GVHMR)を組み合わせており、再現性が高いです。

4.2 計算効率

FSQは決定論的な離散化を使用するため、VQ-VAEのコードブック検索よりも計算効率が優れています。
ウェーブレット変換は線形時間で実行でき、追加の計算コストは最小限です。
7Bモデルの訓練には大規模な計算リソースが必要ですが、推論時は効率的に動作します。

4.3 応用可能性

提案手法は、以下のような幅広い応用が期待できます。
ゲームやアニメーション制作における自然な人間動作の生成。
ロボティクスにおける人間らしい動作の学習と実行。
バーチャルリアリティやメタバースでのアバター動作制御。
映画制作におけるプレビジュアライゼーションや動作編集。
特に、ゼロショット能力により、訓練データに含まれない新しい動作や複雑な指示にも対応できます。

5. まとめと所感

5.1 論文の意義

本研究は、人間の動作生成分野における重要なマイルストーンを達成しています。
大規模データセットと大規模モデルの組み合わせにより、初めて真のゼロショット動作生成を実現しました。
ウェーブレット変換を用いたジッター抑制手法は、離散表現を使用する他の生成タスクにも応用可能な重要な技術革新です。
MotionMillion-Evalベンチマークは、今後の研究の標準的な評価基準となることが期待されます。

5.2 今後の展望

著者らは明示的に述べていませんが、以下のような発展が期待されます。
より大規模なモデル(10B以上)への拡張による、さらなる性能向上。
マルチモーダル学習との統合による、画像や動画を入力とした動作生成。
リアルタイム生成のための効率化手法の開発。
手や顔の表情を含む、より詳細な全身動作の生成。
本研究は、動作生成分野を新たな段階へと押し上げる重要な基盤となることでしょう。