SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model

著者 Yukai Shi, Weiyu Li, Zihao Wang他
所属 Tsinghua University, HKUST, IDEA Research, LightIllusions
投稿日 2025年12月13日
カテゴリ cs.CV, cs.AI

SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model

基本情報

  • arXiv ID: 2512.10957v1 (https://arxiv.org/abs/2512.10957)
  • 著者: Yukai Shi, Weiyu Li, Zihao Wang他
  • 所属: Tsinghua University, HKUST, IDEA Research, LightIllusions
  • 投稿日: 2025年12月13日
  • カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は、単一画像からオープンセット3Dシーン生成する「SceneMaker」という分離型フレームワークを提案しています。
従来手法が限定的なデータセットにより制約されていた問題に対し、3つの独立タスクに分離するアプローチを取ります。
オクルージョン除去、3Dオブジェクト生成、ポーズ推定をそれぞれ異なるデータセットから学習できるよう設計しました。
10Kのオクルージョン除去データセットと200Kの合成シーンデータセットを新たに構築し、室内とオープンセット両方で優れた性能を実現しています。

関連リンクとして、プロジェクトページが公開されています。

1. 研究概要

1.1 背景と動機

オープンセット3Dシーン生成は、単一画像から任意のオブジェクトを含む3Dシーンを合成する基本的なタスクです。
AIGC(AI Generated Content)や具身化AIにおいて高い需要があります。
3Dアセット作成、シミュレーション環境構築、意思決定のための3D知覚などの応用があります。
しかし限定的なシーンデータセット(3D-Front、ScanNet、BlenderSwapなど)により、既存の大部分の手法は室内シーンなどの制約された領域に限定されてきました。

近年、大規模3Dオブジェクトデータセット(Objaverseなど)の登場により、オープンセット3Dオブジェクト生成モデルが急速に進歩しています。
しかし既存手法は依然として、重度のオクルージョンとオープンセット設定の下で高品質な幾何学と正確なポーズを同時に生成することに苦戦しています。
この根本原因は、オクルージョン除去とポーズ推定に対するモデルの不十分なオープンセット事前知識にあります。

従来の手法は2つに分類されます。
シーンデータセットのみから全ての事前知識を学習する「シーンネイティブ」アプローチと、3Dオブジェクトデータセットを活用するものの、オクルージョン除去とポーズ推定の事前知識が不足している「オブジェクトネイティブ」アプローチです。
どちらも完全なオープンセット性能を実現するには限界がありました。

1.2 主要な貢献

本研究は、不十分なオクルージョン除去とポーズ推定事前知識の重要な問題に対処することで、3Dシーン生成をオープンセットシナリオに向けてさらに前進させることを目指しています。

主な貢献として、以下の点が挙げられます。

  • 分離型フレームワーク「SceneMaker」により3Dシーン生成を3つの独立タスクに分割し、それぞれが対応するオープンセット事前知識の学習を最大化
  • 画像データセットを活用した堅牢なオクルージョン除去モデルにより、10K画像オクルージョン除去データセットで強化した高品質なオクルージョン除去を実現
  • 各オブジェクトの6Dポーズとサイズを直接予測する統合拡散ベースモデル。グローバル・ローカル注意機構により正確なポーズ推定を実現
  • オープンセット汎化のための200K合成シーンデータセット構築による性能向上
  • 室内・オープンセット両シナリオでの包括的な実験評価と最先端性能の達成

2. 提案手法

2.1 手法の概要

SceneMakerは、単一シーン画像から一貫した3Dシーンを生成する分離型フレームワークです。
フレームワークは3つのモジュールで構成されます:シーン知覚、オクルージョン下での3Dオブジェクト生成、ポーズ推定。

処理パイプラインには以下の6つのステップがあります。

  1. Grounded-SAMを使用してオブジェクトマスクを分割
  2. MoGeを使用してシーン深度マップを推定し、ポイントクラウドを取得
  3. 分離型オクルージョン除去モデルでオクルージョン除去されたオブジェクト画像を取得
  4. オクルージョン除去画像に基づいて3Dオブジェクト幾何学を生成
  5. ポイントクラウド、画像、オブジェクト幾何学に基づいてオブジェクトポーズ(回転、平行移動、サイズ)を推定
  6. 生成されたオブジェクト幾何学と推定ポーズを最終シーンに合成

この分離された設計により、各タスクが対応するオープンセット事前知識の学習を最大化し、
タスク間のデータによる品質劣化(小オブジェクトの幾何学崩壊やポーズシフトなど)を防ぎます。

2.2 技術的詳細

オクルージョン除去モデル: 画像データセットがより多様なオクルージョンパターンを含むことを活用し、
Flux Kontextを初期化として使用し、10K画像オクルージョン除去データセットでファインチューニングを実施。
データセットは3つの慎重に設計されたオクルージョンパターン(オブジェクトカットアウト、直角クロッピング、
ランダムブラシストローク)で構成され、実世界のオクルージョンをシミュレート。

統合ポーズ推定モデルは、Flow MatchingフレームワークとDiTアーキテクチャを使用した拡散ベースモデルです。
各オブジェクトは回転、平行移動、サイズ、幾何学の4つのトークンで表現されます。
グローバル・ローカル注意機構として以下を導入しています。

  • ローカル自己注意:各オブジェクトの4つのトークン内の相互作用を可能にする
  • グローバル自己注意:シーン内全オブジェクトのトークン間相互作用を可能にし、一貫した相対ポーズを実現
  • ローカルクロス注意:回転トークンがオブジェクト正規空間の条件のみに注意
  • グローバルクロス注意:平行移動・サイズトークンがシーンレベル条件に注意

データセット拡張として、Objaverseオブジェクトを使用して200K合成シーンを生成し、既存シーンデータセットと混合して訓練します。
これにより、オープンセット汎化能力が向上します。

2.3 新規性

本手法の主要な新規性は、3Dシーン生成タスクの戦略的分離にあります。従来手法が全ての事前知識を
限定的なシーンデータセットから学習しようとしていたのに対し、本手法は各サブタスクが最適なデータソースから
学習できるよう設計されています。

特に革新的なのは、オクルージョン除去を3Dドメインから分離し、画像データセットの豊富な多様性を活用したことです。
また、ポーズ推定における細粒度の注意機構の導入により、異なるポーズ変数に対する適切な条件付けを実現し、
従来手法では困難だった正確な6Dポーズ+サイズ予測を可能にしました。

3. 実験結果

3.1 実験設定

実験は室内およびオープンセットデータセットの両方で実施されました。具体的には、MIDI、PartCrafterなどの
既存手法との定量的比較をMIDIテストセット(1Kシーン)で実施し、フレームワークの優位性を実証。

さらに、重度のオクルージョンとオープンセットシナリオでの汎化を検証するため、3D-Frontから1Kシーンを
室内テストセットとして、収集したオープンセットデータから1Kシーンをオープンセットテストセットとして
ランダムに選択しました。注目すべきは、3D-FrontシーンがMIDIテストセットと比較して
著しく多くのオクルージョンを含んでいることです。

評価指標: 既存シーン生成手法に従い、シーンレベルのChamfer Distance(CD-S)、F-Score(F-Score-S)、
IoU Bounding Box(IoU-B)でシーン全体の品質を評価し、オブジェクトレベルのChamfer Distance(CD-O)と
F-Score(F-Score-O)で生成オブジェクト幾何学の品質を評価。

3.2 主要な結果

実験結果は、SceneMakerの優位性を明確に示しました。

MIDIテストセットでの性能: 幅広い既存手法との比較で最良の総合性能を達成。CD-Sで0.051、
F-Score-Sで0.5642、F-Score-Oで0.6544、IoU-Bで0.671を記録し、全指標で最先端結果を更新。

室内・オープンセットでの性能: より困難な室内・オープンセットシーン生成タスクにおいて、
SOTA手法を一貫して上回る性能を実現。特に注目すべきは、オープンセットデータセットで訓練していない場合でも、
室内シーンで最良の定量的結果を獲得したことで、提案フレームワークと設計モジュールの優位性が裏付けられます。

オクルージョン除去性能: BrushNetやFlux Kontextとの比較で、PSNR 15.03、SSIM 0.7566、CLIP 0.2698を達成し、
特に重度のオクルージョンを伴う室内・オープンセット両シーンで優れた性能を示しました。

オクルージョン下でのオブジェクト生成: MIDIやAmodal3Rとの比較で、CD 0.0409、F-Score 0.7454、
Volume IoU 0.5985を達成し、分離型パイプラインの優位性を定量的・定性的に実証。

3.3 既存手法との比較

定量的・定性的分析により、各既存手法との明確な差別化が示されました:

従来のシーンネイティブ手法(InstPifu、Total3D、DiffCADなど)に対しては、全ての評価指標で
大幅な改善を達成。特にオクルージョンが多い複雑シーンでの幾何学品質とポーズ精度で顕著な優位性を示しました。

最近のオブジェクトネイティブ手法(MIDI、PartCrafterなど)との比較では、分離型設計の効果が明確に現れ、
オープンセット汎化能力で特に大きな差を示しました。オープンセットシナリオでは、CD-Sで0.0285、
F-Score-Sで0.6125、IoU-Bで0.7549を達成し、既存手法を大きく上回りました。

アブレーションスタディ: オープンセットデータなしの版でも室内シーンで優秀な結果を示したことで、
基本的なフレームワーク設計の堅牢性が確認されました。一方、オープンセットデータの追加により、
オープンセットシナリオでの性能が大きく向上し、データ拡張戦略の有効性が実証されました。

4. 実用性評価

4.1 実装の容易性

SceneMakerフレームワークは既存の成熟したコンポーネントを活用して構築されているため、実装は比較的容易です。
Grounded-SAMによるセグメンテーション、MoGeによる深度推定、既存の3Dオブジェクト生成モデルなど、
公開されているツールを組み合わせることで基本的なパイプラインを構築できます。

ただし、カスタムデータセットの構築(10Kオクルージョン除去データセット、200K合成シーンデータセット)と
統合ポーズ推定モデルの訓練には相当な計算資源と時間が必要です。特に、Flow Matchingフレームワークと
DiTアーキテクチャの実装、複雑な注意機構の設計には専門的な知識が要求されます。

4.2 計算効率

分離型設計により、各コンポーネントを独立して最適化できる利点がある一方、推論時には複数のモデルを
順次実行する必要があるため、計算コストが増加します。特に、拡散ベースのオクルージョン除去モデルと
ポーズ推定モデルは推論時間が長く、リアルタイム応用には課題があります。

しかし、各コンポーネントの並列化やモデル圧縮技術の適用により効率化は可能であり、
高品質な3Dシーン生成の要求を考慮すれば、計算コストは許容範囲内と考えられます。

4.3 応用可能性

SceneMakerの応用範囲は非常に広く、複数の分野での実用化が期待されます:

3Dコンテンツ作成: ゲーム開発、映像制作、バーチャルリアリティにおける効率的な3Dアセット生成。
特に、単一画像からの高品質シーン復元により、制作ワークフローの大幅な効率化が可能。

ロボティクス・自動運転: 実世界環境の3D理解とシミュレーション環境構築において重要な役割。
オープンセット性能により、未知環境への適応能力が向上。

AR/VR応用: リアルタイム環境理解と仮想オブジェクト配置において、正確なポーズ推定能力が活用可能。

建築・インテリアデザイン: 室内設計の可視化と空間配置の最適化において実用的価値が高い。

5. まとめと所感

5.1 論文の意義

この論文は、3Dシーン生成分野において重要な方法論的転換を示す優秀な研究です。
最も評価すべき点は、問題を適切に分解し、各サブ問題に最適なデータソースを割り当てる戦略的アプローチです。
従来の「全てを1つのモデルで解決する」アプローチから脱却し、「適切な分離と統合」による
より効率的で効果的なソリューションを提示しています。

技術的貢献も実質的で、特にオクルージョン除去における画像データセット活用と、
ポーズ推定における細粒度の注意機構の設計は、他の研究でも参考にされる可能性が高い革新です。
200K合成シーンデータセットの構築は、研究コミュニティ全体に貢献する価値のあるリソースです。

実験の包括性と結果の説得力も高く、定量的・定性的評価の両方で一貫した優位性を示しています。
特に、オープンセットシナリオでの大幅な性能向上は、実用的価値を強く示唆しています。

5.2 今後の展望

論文が提示する今後の研究方向は現実的で重要です。特に、物理的妥当性の向上
(相互浸透や力学的な相互作用を含む)は、より現実的なシミュレーション環境構築において不可欠です。

技術発展の方向性: より高度な制御信号の導入、自然言語インタラクションの改善、
マルチビュー・ビデオ入力への拡張などが期待されます。また、エンドツーエンド学習による
計算効率の改善も重要な研究方向です。

応用拡張: 生成された高品質3Dシーンを基盤とした具身化AI意思決定、
より複雑な物理シミュレーション、リアルタイム環境理解などへの展開が期待されます。

データセットと評価: より多様で複雑な実世界シナリオを含むデータセット拡張と、
物理的妥当性を含む新しい評価指標の開発が重要になるでしょう。

本研究は、3Dシーン理解・生成分野の実用化において重要なマイルストーンを示しており、
今後の関連研究に大きな影響を与える可能性が高い優秀な貢献です。
分離型アプローチの哲学は、他の複合的AI課題にも適用できる一般的な価値を持っています。