SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting

著者 Di Li他8名（Xidian University、Sun Yat-sen University、Qinghai Normal University）

所属 Xidian University, Sun Yat-sen University, Qinghai Normal University

投稿日 2025年7月31日

カテゴリ cs.CV, cs.AI

arXiv 2507.23772v1 ↗

SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting

基本情報

arXiv ID: 2507.23772v1 (https://arxiv.org/abs/2507.23772)
著者: Di Li他8名（Xidian University、Sun Yat-sen University、Qinghai Normal University）
所属: Xidian University, Sun Yat-sen University, Qinghai Normal University
投稿日: 2025年7月31日
カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は、3Dシーンの中で「どの部分をどの順番で操作すべきか」を理解するAIシステムの研究です。例えば「電子レンジで食べ物を温める」という指示に対して、以下のような一連の操作を3Dシーン上で特定できるようにします。

電子レンジのドアを開ける
食べ物を入れる
ボタンを押す

3D Gaussian Splatting（3DGS）という高精度な3D表現技術を使い、複雑な環境での複数段階の操作を理解・予測する初めてのシステムを実現しています。

1. 研究概要

1.1 背景と動機

3Dアフォーダンス推論は、3D空間内でオブジェクトの操作可能な領域を特定し、特定のアクションを可能にする基本的な知覚能力です。これは、ロボットマニピュレーション、拡張現実（AR）、仮想現実（VR）などの幅広いアプリケーションにおいて不可欠な機能を支えています。

従来の研究では、ポイントクラウド表現を使用した3Dアフォーダンス推論が試みられてきました。しかし、ポイントクラウドの本質的な疎さと離散的な性質により、精密な相互作用に必要な細かく連続的な構造を捉える能力が制限されていました。最近では、3D Gaussian Splatting（3DGS）の高忠実度表現に触発され、スパースなポイントクラウドから3DGSへの移行が注目を集めています。

しかし、既存の3DGSベースの手法は、単一オブジェクト・単一ステップの相互作用に限定されており、実世界の複雑なタスクに必要な長期的・多段階的な推論には対応できていませんでした。例えば、「ボウルに入った食べ物を電子レンジで温める」という指示には、複数の相互依存的なアクションが必要ですが、これは現在の手法では処理できません。

1.2 主要な貢献

本研究は、3Dアフォーダンス推論を単一ステップ・オブジェクト中心の相互作用から、複雑でシーケンシャルなシーンレベルのタスクへと進化させました。具体的な貢献は以下の通りです。

シーンレベルのシーケンシャル3Dガウシアンアフォーダンス推論という新しいタスクを定義
1,800以上の3DGSシーンと14,000以上のアフォーダンスマスクを含む大規模ベンチマークSeqAffordSplatを構築
高忠実度3DGS表現と長期的シーケンシャルプランニングを統合した初のフレームワークSeqSplatNetを提案
新しいベンチマークにおいて、シーケンシャルベースラインを14.1%上回る性能を達成

2. 提案手法

2.1 手法の概要

SeqSplatNetは、言語指示からシーケンシャルな3Dアフォーダンスマスクへの直接マッピングを実現するエンドツーエンドアーキテクチャです。自己回帰プロセスを通じて、モデルは言語トークンと特別なトークンを交互に生成し、各の発行がアフォーダンスデコーダーを動的にトリガーして3Dアフォーダンスマスクを生成します。

アーキテクチャは以下の3つのコアコンポーネントで構成されています。

3DGSエンコーダー：PointNetベースのエンコーダーを採用し、3DGSシーンから幾何学的情報を抽出
大規模言語モデル（LLM）：中央推論エンジンとして機能し、入力指示を処理して原始的な指示シーケンスを自己回帰的に生成
条件付きアフォーダンスデコーダー：各動的指示ベクトルに条件付けられたアフォーダンスマスクを生成

2.2 技術的詳細

条件付き幾何再構築の事前学習では、抽象的な意味埋め込みのみに条件付けられた空間的アフォーダンス領域の再構築タスクを実施します。これにより3DGSエンコーダーに幾何的な事前知識を注入し、抽象的な意味概念から対応する空間幾何への強力なマッピングを学習します。

VFM意味特徴注入（VFM Semantic Feature Injection）では、3DGSの高忠実度レンダリング機能を活用します。事前学習済み2D VFMから強力な意味知識を注入します。マルチビュー2D特徴マップを生成し、学習不要の集約プロセスを通じて3D空間にリフトすることで、豊富な特徴バンクを生成します。

2.3 新規性

既存手法との主な違いは以下の通りです。

シーンレベルでの複数オブジェクト間のシーケンシャルな相互作用を初めて実現
LLMの計画能力と3DGSの豊富な表現力を統一的なエンドツーエンドアーキテクチャで統合
幾何事前知識と意味的知識を効果的に組み合わせる新学習戦略を導入

3. 実験結果

3.1 実験設定

評価は以下の3つの異なる設定で実施されました。

Single：個別の非順序アフォーダンス領域を予測する能力を評価
Sequential (with gt seq)：グラウンドトゥルースアクションシーケンスが与えられた場合のアフォーダンス接地精度を評価
Sequential：単一の高レベル指示から完全なアクションシーケンスを推論・実行する完全タスクをテスト

評価指標として、単一ステップ予測にはmIoU、AUC、SIM、MAEを採用し、シーケンシャルタスクにはsIoU、sAUC、sSIM、sMAEという新しいシーケンシャルメトリクスを導入しました。

3.2 主要な結果

SeqAffordSplatデータセットでの結果では、Singleタスクにおいて37.0のmIoUを達成しました。最強のポイントクラウドベースのベースライン（PointRefer：31.3）を5.7ポイント上回りました。3DGSベースのベースライン（3DAffordSplat：30.5）を6.5ポイント上回りました。

Sequential（with GT seq）設定では、36.0のsIoUを達成し、次善のベースラインを5.7ポイント上回りました。完全なエンドツーエンドのSequentialタスクでは、26.2のsIoUを達成しました。唯一の比較対象であるSeqAfford（12.1）の2倍以上の性能を示しました。

3.3 既存手法との比較

3DAffordSplatデータセットでの評価でも、40.2のmIoUを達成し、元の3DAffordSplatベンチマークを9.9ポイント上回る結果となりました。これは、提案手法が新しいシーケンシャルタスクを超えて、既存の単一ステップタスクでも優れた性能を発揮することを示しています。

アブレーション研究では、条件付き幾何再構築の事前学習がsIoUを20.3から24.1へ改善しました。DINOv2からの意味特徴注入がさらに26.2へと向上させることが確認されました。

4. 実用性評価

4.1 実装の容易性

SeqSplatNetは、既存の深層学習フレームワークで実装可能です。Qwen-3-0.6B LLMをベースとしてLoRA（Low-Rank Adaptation）を用いたファインチューニングを採用しています。8枚のGeForce RTX 3090 GPUで学習可能であり、比較的アクセスしやすい計算資源で実装できます。

4.2 計算効率

モデルサイズの検討では、0.6Bパラメータのモデルが最適なパフォーマンスを示し、より大きな8Bモデルよりも優れた結果を達成しました。これは、タスクに適したモデルサイズの選択が重要であることを示唆しており、計算効率の観点からも実用的です。

4.3 応用可能性

本手法は、ロボットマニピュレーション、AR/VR、人間-ロボット協調作業など、複雑な環境での長期的なタスク実行が必要な様々な分野への応用が期待されます。特に、自然言語による高レベルな指示から具体的な操作シーケンスを生成できる能力は、より直感的なヒューマン-マシンインターフェースの実現に貢献する可能性があります。

5. まとめと所感

5.1 論文の意義

本研究は、3Dアフォーダンス推論を単純な単一ステップのタスクから、実世界の複雑性を反映したシーケンシャルなタスクへと進化させた重要な成果です。高忠実度の3DGS表現と強力な言語理解能力を組み合わせることで、より実用的で汎用的なシステムの基盤を築いています。

特に、エンドツーエンドで学習可能なアーキテクチャの実現と、大規模なベンチマークの構築は、この分野の今後の発展に大きく貢献すると考えられます。14.1%という大幅な性能向上は、提案手法の有効性を明確に示しています。

5.2 今後の展望

今後の研究では、より複雑なシーンや長いアクションシーケンスへの対応、リアルタイムでの推論実行、実際のロボットシステムへの統合などが重要な課題となるでしょう。また、人間のフィードバックを組み込んだインタラクティブな学習や、未知のオブジェクトへの汎化能力の向上も興味深い研究方向です。

さらに、他のモダリティ（触覚、音声など）との統合や、物理シミュレーションとの連携により、より現実的で安全な操作計画の生成が可能になることが期待されます。