LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans

著者 Zhening Huang, Xiaoyang Wu, Fangcheng Zhong他
所属 University of Cambridge, The University of Hong Kong, Technical University of Munich
投稿日 2025年07月03日
カテゴリ cs.CV

LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans

基本情報

  • arXiv ID: 2507.02861v1 (https://arxiv.org/abs/2507.02861)
  • 著者: Zhening Huang, Xiaoyang Wu, Fangcheng Zhong他
  • 所属: University of Cambridge, The University of Hong Kong, Technical University of Munich
  • 投稿日: 2025年07月03日
  • カテゴリ: cs.CV

簡単に説明すると

LiteRealityは、RGB-Dスキャンから「グラフィックス対応」の3D仮想環境を生成する革新的なパイプラインです。
従来の3D再構築手法がフォトリアリスティックな「3D写真」を生成するのに対し、LiteRealityは視覚的な忠実度だけでなく、インタラクティブ性や編集可能性を備えた実用的な3Dシーンを生成します。

生成されたシーンは、物体の個別性、可動部分、高品質なPBRマテリアル、物理的な相互作用をサポートします。
AR/VR、ゲーム、ロボティクス、デジタルツインなどの分野で即座に活用できます。

プロジェクトページ https://litereality.github.io で詳細なデモや結果を確認できます。

1. 研究概要

1.1 背景と動機

現在の3D再構築技術(NeRF、Gaussian Splatting、Structure-from-Motion)は高度なフォトリアリズムを実現していますが、これらは静的な「3D写真」に過ぎません。
これらの手法は幾何学とテクスチャを正確に捉えることができますが、インタラクティブ性や構造情報が欠如しています。

実用的なアプリケーション(AR/VR、ゲーム、ロボティクス)では、単なる視覚的な再現だけでなく、物体との相互作用、照明条件の変更、物理シミュレーションなどが必要です。
しかし、既存手法は実世界の屋内スキャンにおいて、乱雑さ、重度のオクルージョン、劣悪な照明条件などの課題に対処できず、その適用範囲が限定されています。

LiteRealityは、これらの制限を克服し、視覚的な忠実度と機能的な完全性を両立する「グラフィックス対応再構築」という新しいパラダイムを提案しています。

1.2 主要な貢献

本研究の主要な貢献として、以下の3つの革新的な要素があります。

  • LiteRealityフレームワーク:部屋レベルのスキャンを高い現実感とインタラクティブ機能を備えたグラフィックス対応環境に変換する初のシステム
  • 学習不要の物体検索パイプライン:Scan2CADベンチマークで優れた類似性能を達成する新しい物体検索システム
  • ロバストなマテリアルペインティング:形状の不整合、困難な照明条件、多様な画像スタイルの存在下でも、高品質なPBRマテリアルを3Dモデルに確実に転写する手法

2. 提案手法

2.1 手法の概要

LiteRealityパイプラインは4つの主要なステージから構成されています。
まず、RGB-D画像から空間情報を抽出し、構造化されたシーングラフとして解析します。
次に、キュレートされたアセットデータベースから視覚的に最も類似した3Dモデルを検索して物体を再構築します。
その後、Material Paintingモジュールが高品質なPBRマテリアルを転写し、最後に物理エンジンで統合してインタラクティブなシーンを生成します。

2.2 技術的詳細

シーン認識と解析

入力されたRGB-D画像から、部屋のレイアウト推定と方向付きバウンディングボックスを検出します。
シーングラフ表現を導入して空間的および外観的な関係を整理し、制約ベースの衝突解決により物理的に妥当なレイアウトを保証します。
ノード属性には、空間的特性(中心、寸法、方向)と外観特性(複数の可視クロップ画像)が含まれます。

物体再構築

階層的な検索アプローチを採用し、セマンティックラベル、視覚的特徴、カメラポーズを活用します。
学習不要のアプローチにより、データセットの拡張に対するスケーラビリティを実現しています。
プロセスは以下の通りです。

  • サブカテゴリによるセマンティックフィルタリング。
  • DINOv2特徴を使用した画像ベース検索。
  • ポーズ認識レンダリングと比較。
  • 言語モデルを使用したコンテキスト選択。

マテリアルペインティング

従来の微分可能レンダリングアプローチの限界に対処するため、3段階のプロセスを採用しています。

  • Auto-crop Mapping:SAMガイドのセグメンテーションとMLLMによるセマンティックマッピング。
  • セマンティックおよび視覚ガイド付きマテリアル検索:言語ガイドと視覚ベースの検索を組み合わせ。
  • アルベドのみの最適化:CIE LAB色空間での軽量な色調整。

手続き的再構築

物理エンジン(Blender)内でシーンを構築し、壁の建設、窓・ドアの組み立て、物体を配置します。
剛体プロパティと衝突境界を割り当て、MLLMを使用して物体の質量を推定し、現実的な物理シミュレーションを実現します。

2.3 新規性

既存手法との主な違いとして、以下の点が挙げられます。

  • グラフィックス対応の再構築:単なる視覚的再現を超えて、インタラクティブ性と編集可能性を持つシーンを生成
  • 学習不要のアプローチ:大規模な学習を必要とせず、データベースの拡張に柔軟に対応
  • ロバスト性:実世界の困難な条件(オクルージョン、不良照明、乱雑さ)でも動作

3. 実験結果

3.1 実験設定

データセットと評価

  • ScanNetデータセット:検索評価用
  • 実世界のiPhoneキャプチャ(5つの屋内シーン):マテリアル推定用
  • カスタムデータベース:3D-Future、AI2-THOR、Sketchfabから5,283アセット
  • 3つのベンチマーク:検索類似性、物体中心のPBRマテリアル推定、フルシーン再構築

ベースライン手法

  • 検索:MSCD、Digital Cousin、ScanNotate
  • マテリアル推定:PhotoShape、Make-It-Real(MIR)、アルベド最適化付きバリアント
  • フルシーン:Phone2Proc、異なるマテリアル手法を用いたDigital Cousin

3.2 主要な結果

定量的結果

検索類似性(ScanNetでのChamfer Distance)において、LiteRealityは0.0986(avg/CAD)で最高性能を達成しました。
ScanNotate(0.1042)、MSCD(0.1103)、Digital Cousin(0.1411)を上回りました。

物体中心のPBRマテリアル推定(110物体、5シーン)では、LiteRealityが総合的に最高性能を示しました。

  • RMSE:0.2163(2番目に良い)。
  • SSIM:0.4353(最高)。
  • LPIPS:0.5854(最高)。

フルシーン再構築では、すべてのベースラインを上回る結果を達成しました。

  • RMSE:0.2664(最高)。
  • SSIM:0.5818(最高)。
  • LPIPS:0.6522(最高)。

3.3 既存手法との比較

LiteRealityは、特に以下の点で既存手法を上回っています。

  • 学習不要でありながら高い検索性能を実現。
  • 困難な条件下でのロバストなマテリアル転写。
  • グラフィックスパイプラインとの高い互換性。

定性的評価では、単一画像から複数の3Dモデルへのペインティング、多様な画像スタイル(漫画、絵画、AI生成コンテンツ)からのペインティングなど、挑戦的なシナリオでのロバスト性が実証されました。

4. 実用性評価

4.1 実装の容易性

LiteRealityは学習不要のアプローチを採用しているため、大規模なデータセットでの事前学習が不要です。
既存の3Dアセットデータベースを活用でき、新しいアセットの追加も容易です。

4.2 計算効率

検索とマテリアルペインティングプロセスは、学習ベースの手法と比較して計算効率が高く、リアルタイムに近い処理が可能です。
物理エンジンへの統合も標準的なグラフィックスパイプラインを使用するため、効率的です。

4.3 応用可能性

LiteRealityは以下のような幅広い応用が期待できます。

  • AR/VR:インタラクティブな仮想環境の迅速な構築。
  • ゲーム開発:現実世界のスキャンからゲーム環境の自動生成。
  • ロボティクス:シミュレーション環境での学習とテスト。
  • デジタルツイン:物理的特性を含む正確なデジタル複製。
  • 建築・インテリアデザイン:既存空間の編集可能な3Dモデル化。

5. まとめと所感

5.1 論文の意義

LiteRealityは、3D再構築の分野に「グラフィックス対応」という新しいパラダイムを導入しました。
この手法は、従来の視覚的再現に焦点を当てたアプローチから、実用的でインタラクティブなアプリケーションに直接使用できる再構築へとシフトしています。

特に、学習不要でありながら高い性能を達成し、実世界の困難な条件下でもロバストに動作する点は、実用的な観点から非常に重要です。
生成されたシーンが標準的なグラフィックスパイプラインと高い互換性があることも、即座の実用化を可能にしています。

5.2 今後の展望

著者らは以下の発展方向を示しています。

  • 入力モダリティの拡張:単一の360度画像や自己中心的ビデオのサポート。
  • より深い物理統合:動的シーン相互作用と物体拡張のための強化されたモデリング。
  • アプリケーションの拡大:より複雑なインタラクションやシミュレーションへの対応。

LiteRealityは、受動的な可視化を超えて、真に機能的な実世界環境のデジタル複製を可能にする基盤技術として、今後の発展が期待されます。