VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

著者 Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang

所属 Zhejiang University, GigaAI, University of Electronic Science and Technology of China, The Chinese University of Hong Kong, Tsinghua University, Monash University

投稿日 2025年09月25日

カテゴリ cs.CV, cs.AI

arXiv 2509.19297v1 ↗

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

基本情報

arXiv ID: 2509.19297v1 (https://arxiv.org/abs/2509.19297)
著者: Weijie Wang, Yeqing Chen, Zeyu Zhang, Hengyu Liu, Haoxiao Wang, Zhiyuan Feng, Wenkang Qin, Zheng Zhu, Donny Y. Chen, Bohan Zhuang
所属: Zhejiang University, GigaAI, University of Electronic Science and Technology of China, The Chinese University of Hong Kong, Tsinghua University, Monash University
投稿日: 2025年09月25日
カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は、従来のピクセルベース予測の限界を解決するため、ボクセル配列予測を用いた新しいフィードフォワード3Dガウシアンスプラッティング手法「VolSplat」を提案しています。従来手法では2D画像のピクセルから直接3Dガウシアンを予測していましたが、これは視点依存性や整列誤差、密度制御の問題を抱えていました。VolSplatは3Dボクセルグリッド内で直接ガウシアンを予測することで、より堅牢で一貫性のある3D再構築を実現し、RealEstate10KやScanNetで高い性能を達成しています。プロジェクトページ: https://lhmd.top/volsplat

1. 研究概要

1.1 背景と動機

3D再構築は現代のロボット工学における基盤技術であり、自律システムが物理環境を知覚、マッピング、理解するための重要な能力です。従来の最適化ベース手法（NeRFや3DGS）は高品質な結果を得られますが、計算コストが高く推論時間が長いという問題があります。

フィードフォワード手法は単一のフォワードパスで入力画像から直接3D表現を予測することで、リアルタイムアプリケーションや大規模データセットに適用可能な速度を実現します。しかし、既存のフィードフォワード3DGS手法は「ピクセル配列」パラダイムに依存しており、これには本質的な限界があります。

具体的には、離散ピクセル位置でのサンプリングはカメラキャリブレーションや離散化誤差に敏感で、視点間で一貫性のないサンプリングパターンを生成し、オクルージョンや低テクスチャ領域で問題が生じます。また、2D画像座標を介した関連付けにより、3D予測が深度の曖昧性や不安定な幾何学的推論に悩まされることがあります。

1.2 主要な貢献

この研究の主要な貢献は以下の3点にまとめられます。

まず、ピクセル配列からボクセル配列への根本的なパラダイムシフトを提案し、3Dボクセルグリッド内で直接ガウシアンを予測する実用的なエンドツーエンドフレームワークを提示しました。

次に、ピクセル配列システムにおける整列誤差の詳細な分析を提供し、体積的集約がこれらの失敗モードを軽減する方法を実証しました。

最後に、RealEstate10KとScanNetの両方の公開ベンチマークで高い性能を達成し、より妥当で視点一貫性のあるガウシアン再構築を実現しました。

2. 提案手法

2.1 手法の概要

VolSplatは、配列パラダイムをピクセルからボクセルへ移行することで、従来手法の限界を解決します。投影されたピクセル座標での特徴サンプリングの代わりに、予測される幾何学と正準的な体積座標フレームを共有する3Dボクセルグリッドに直接画像特徴を配列・集約します。

この手法は以下の3つの主要ステージから構成されます。第1に、2D画像特徴を用いた3D特徴グリッドの構築です。第2に、スパース3D U-Netによる3D特徴の精細化です。第3に、精細化された特徴からのボクセル配列ガウシアンの予測です。

2.2 技術的詳細

3D特徴構築では、まず重み共有ResNetバックボーンを各RGB画像に適用してダウンサンプリングされた特徴マップを取得します。これらの特徴はクロスビューアテンションで精細化され、最も近い2つの隣接視点と情報を交換します。

平面掃引戦略として、各視点について、D個の候補深度をサンプリングし、隣接視点からの特徴を各仮定深度で基準視点にワープし、ペアワイズ特徴類似度を計算してコストボリュームを構築します。

ボクセル化では、予測された深度マップとカメラパラメータを用いて、各ピクセル(u,v)を3D点にアンプロジェクトし、ワールド座標系に変換します。密な点群を構造化された体積表現に変換するため、3D点をボクセル化し、各ボクセル内の特徴をチャンネル次元でアベレージプーリングにより集約します。

スパース3D U-Net精細化では、入力ボクセルグリッドVに対して、スパース畳み込み3D U-Net R が残差ボクセルフィールドRを予測し、精細化されたボクセル特徴をV' = V + Rで取得します。

2.3 新規性

従来のピクセル配列手法との根本的な違いは、情報の関連付けが行われる場所と方法にあります。ボクセル配列により、特徴が一貫した3D位置に格納・取得され、モデルが体積的に推論し、3D U-NetとスパースボリュメトリックオペレータのInductive biasを活用できます。

これにより、クエリごとの2D予測パターンの必要性が排除され、より安定したマルチビュー融合、よりクリーンなオクルージョン処理、より優れた共同ジオメトリと外観推論のサポートが実現されます。

3. 実験結果

3.1 実験設定

データセットとしてRealEstate10K（67,477訓練シーン、7,289テストシーン）とScanNet（約100訓練シーン、8評価シーン）を使用し、256×256に画像をリサイズして評価を実施しました。

ベースラインとしてpixelSplat、MVSplat、FreeSplat、TranSplat、DepthSplatなどのピクセル配列手法、およびGaussian Graph Network（GGN）などの拡張ピクセル配列手法と比較しました。

評価指標にはPSNR（ピーク信号雑音比）、SSIM（構造類似度指標）、LPIPS（学習知覚画像パッチ類似度）を使用しました。

3.2 主要な結果

RealEstate10Kでの性能として、VolSplatはPSNR 31.30、SSIM 0.941、LPIPS 0.075を達成し、最も優秀だったDepthSplat（PSNR 27.47、SSIM 0.889、LPIPS 0.114）を大幅に上回りました。

ScanNetでの性能では、PSNR 28.41、SSIM 0.906、LPIPS 0.127を達成し、FreeSplat（PSNR 27.45、SSIM 0.829、LPIPS 0.222）を上回る性能を示しました。

クロスデータセット汎化において、RealEstate10Kで訓練したモデルをACIDデータセットでファインチューニングなしで評価した結果、PSNR 32.65、SSIM 0.932、LPIPS 0.092を達成し、他の手法を大幅に上回る汎化性能を示しました。

3.3 既存手法との比較

スパースマルチビュー設定において、すべてのピクセル配列モデルが大幅な性能低下を示したのに対し、VolSplatはこれらの困難な条件下でも有望な性能を維持しました。レンダリングされた画像は、競合手法で見られる一般的なフローターやオブジェクト境界でのアーティファクトがほとんどありません。

ガウシアン密度の分析では、ピクセル配列手法が固定数の大量ガウシアンを生成するのに対し、VolSplatはシーンの複雑さに応じてガウシアン数を適応的に制御し、より効率的で多くの場合によりコンパクトなガウシアンセットで優れたレンダリング品質を実現しています。

4. 実用性評価

4.1 実装の容易性

提案手法は標準的なPyTorchフレームワークで実装されており、既存のフィードフォワード3DGSパイプラインへの統合が比較的容易です。スパース3D U-Netによる精細化段階を除けば、基本的なボクセル化と特徴集約は実装が straightforwardです。

ただし、3D畳み込み操作とスパースデータ構造の最適化には専門知識が必要であり、メモリ効率の最適化が重要な実装課題となります。

4.2 計算効率

ボクセルサイズの調整により計算効率とレンダリング品質のバランスが取れます。デフォルト設定（0.1cm）でメモリ使用量8.06GBと報告されており、実用的な範囲内です。

スパースデータ構造を活用することで、高解像度での実用的な再構築が可能となり、現代のGPUアーキテクチャに適した加速戦略の活用も容易です。

4.3 応用可能性

ロボット工学における3Dマッピング、VR/ARアプリケーション、自動運転での環境理解など、リアルタイムでの3D再構築が要求される幅広い分野での応用が期待されます。

特に、視点依存性の低下とオクルージョン処理の改善により、動的環境での robust な3D再構築が可能となり、実世界での展開可能性が高いです。

5. まとめと所感

5.1 論文の意義

この研究は、フィードフォワード3DGSにおけるパラダイムシフトを提案し、ピクセル配列の根本的限界を解決したことに大きな意義があります。理論的分析と実験的検証の両面から、ボクセル配列手法の優位性を明確に示しており、この分野の今後の研究方向に重要な指針を提供しています。

特に、適応的ガウシアン密度制御と多視点一貫性の改善は、実用的な3D再構築システムの実現において重要な進歩といえます。

5.2 今後の展望

より大規模なシーンでのスケーラビリティの検証、動的シーンへの対応、さらなる計算効率の改善が今後の研究課題として考えられます。また、他の3D表現（NeRF、メッシュ等）との融合や、マルチモーダル情報（LiDAR、IMU等）の統合による更なる robustness 向上も期待されます。

ボクセル配列のコンセプトは他の3D生成・編集タスクにも応用可能であり、3Dコンピュータビジョン分野全体に広範な影響を与える可能性が高いです。