Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

著者

所属

投稿日

カテゴリ

arXiv ↗

Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

基本情報

arXiv ID は 2508.10897v1 である。URL は https://arxiv.org/abs/2508.10897 である。
著者は Mengyuan Liu, Xinshun Wang, Zhongbin Fang, Deheng Ye らである。
所属機関は Peking University, Tencent, ETH Zurich などである。
投稿日は2025年08月18日である。
カテゴリは cs.CV, cs.AI である。

簡単に説明すると

この論文は3D人間動作モデリングにIn-Context Learning（文脈内学習）を初めて適用した研究です。従来の手法では異なるタスクやデータセットごとに個別のモデルや複数段階の訓練が必要でした。本研究ではPose-in-Context（PiC）とHuman-in-Context（HiC）を提案し、単一の統一モデルで複数のモダリティ（姿勢・メッシュ）、タスク、データセットを扱えるようにしています。特にHiCは3.83M個のサンプルを使用し、10種類のタスクと4つのデータセットに対応しています。ソースコードは https://github.com/BradleyWang0416/Human-in-Context で公開されています。

1. 研究概要

1.1 背景と動機

3D人間動作モデリングは複数のドメインを横断する能力が求められる重要な研究分野です。従来の手法では異なるタスク、モダリティ、データセット間での汎化能力に限界がありました。特に3D動作データの多次元性と時間・空間的複雑性により、クロスドメインモデリングは困難でした。

既存のクロスドメインモデルには大きく2つの制約があった。第一に、適用範囲が狭く、同一タスクを少数のデータセットで行うか、単一モダリティ内での類似タスクに限定されていた。第二に、ドメイン固有のモデルヘッドに依存し、複雑な多段階訓練が必要で、汎化性とスケーラビリティが制限されていた。

自然言語処理で成功しているIn-Context Learningパラダイムに着想を得て、著者らは統一クロスドメインモデルの新しい設定を提案した。この設定では単一プロセスでの訓練が可能になり、ドメイン固有コンポーネントや複雑な多段階訓練が不要になる。

1.2 主要な貢献

本研究の主要な貢献は以下の4つの重要な技術革新にまとめられる。

Pose-in-Context（PiC）の提案。
In-Context LearningをSKELETON 3D動作モデリングに初めて適用した手法である。
姿勢中心のクロスドメインモデルとして複数の姿勢ベースタスクとデータセットに汎化できる。
Human-in-Context（HiC）への拡張。
PiCを拡張し、姿勢とメッシュ両方の表現を統一フレームワーク内で扱えるようにした。
クロスモダリティ、クロスタスク、クロスデータセット汎化を単一の統一フレームワークで実現している。
Max-Min Similarity Prompt Sampling戦略。
従来のランダム選択ベースプロンプト戦略を改良した新しいアンカーベースサンプリング手法である。
相対運動の類似性空間を構築し、多様な領域を効果的にカバーする800個のアンカーを選択する。
XFusionNet アーキテクチャ。
マルチレベル文脈集約機能を持つデュアルブランチネットワークアーキテクチャである。
自己注意、グラフ畳み込み、状態空間モデルの3つのレベルで文脈依存性を処理する。

2. 提案手法

2.1 手法の概要

[詳細な説明]

2.2 技術的詳細

[アルゴリズムや数式の説明]

2.3 新規性

[既存手法との違い]

3. 実験結果

3.1 実験設定

[データセット、評価指標など]

3.2 主要な結果

[定量的・定性的結果]

3.3 既存手法との比較

[比較結果と分析]

4. 実用性評価

4.1 実装の容易性

[評価]

4.2 計算効率

[評価]

4.3 応用可能性

[評価]

5. まとめと所感

5.1 論文の意義

[考察・総合評価]

5.2 今後の展望

[将来性や改善点]