E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
基本情報
- arXiv ID: 2512.10950v1 (https://arxiv.org/abs/2512.10950)
- 著者: Qitao Zhao他7名
- 所属: Carnegie Mellon University, Adobe Research, Harvard University
- 投稿日: 2024年12月16日
- カテゴリ: cs.CV, cs.LG
簡単に説明すると
この論文は、ラベルなしマルチビュー画像から3D認識表現を学習する自己教師あり大規模3Dビジョンモデル「E-RayZer」を提案しています。従来のRayZerが潜在空間で間接的に3Dを推論するのに対し、E-RayZerは明示的な3Dガウシアンを用いて3D空間で直接動作します。視覚的重複度に基づく新しい細粒度学習カリキュラムを導入し、収束性とスケーラビリティを確保しています。プロジェクトページ: https://qitaozhao.github.io/E-RayZer
1. 研究概要
1.1 背景と動機
自己教師あり事前学習は言語、2D画像、ビデオ分野で基盤モデルに革命をもたらしましたが、マルチビュー画像からの3D認識表現学習は大きく未開拓分野でした。現在の3D Visionモデルの多くはCOLMAPで推定された3D擬似ラベルを用いた教師あり学習に依存しており、本質的に非効率で不完全で、最終的にはスケールしません。
3D空間理解は物理世界との知覚・相互作用の基礎であり、豊富な生の視覚観察から3D認識表現を学習できる自己教師ありな事前学習フレームワークが必要です。従来のRayZerは潜在空間での自己教師ありビュー合成という代理タスクを通じて表面的な3D認識しか示しませんでした。
1.2 主要な貢献
この論文の主要な貢献は以下の通りです。
- 初の自己教師ありフィードフォワード3DGS再構成モデル、ゼロ3Dアノテーションでスクラッチから学習
- DINOv3、CroCo v2、VideoMAE V2、Perception Encoderなど先行視覚表現学習器を下流3Dタスクで上回る性能
- 従来の自己教師あり3D Visionモデルと比較して強い3D理解能力、カメラポーズ推定精度の顕著な改善
- 教師ありVGGTと同等または時に優る性能を純粋自己教師ありで達成
2. 提案手法
2.1 手法の概要
E-RayZerは明示的な3Dガウシアンスプラッティングを用いて3D空間で直接動作します。入力から3Dガウシアンとカメラパラメータを予測し、物理的レンダリング規則の制約下で測光自己教師ありを行います。明示的なシーン幾何学に表現を基礎づけることで、真に3D認識的で、フレーム補間などのRayZerのショートカット解法から自由な特徴を学習します。
視覚的重複度概念に基づく細粒度学習カリキュラムを提案し、高い視覚的重複のサンプルから開始してポーズ推定器を準同一ポーズ予測から初期化し、徐々に重複を減らして一般的3D理解を促進します。異種訓練リソースへのスケーリングでは、視覚的重複が多様なカメラモーション分布を適応的に整列させる自然で統一的な指標を提供します。
2.2 技術的詳細
RayZerのコア設計をベースとして構築しつつ、明示的3Dモデリングを活用してその問題に対処します。全入力画像を参照セットと目標セットに分割し、参照ビューから明示的3Dガウシアンをシーン表現として予測し、自己予測目標ビューカメラを用いてシーンをレンダリングします。
マルチビュートランスフォーマーを用いてカメラ内外部パラメータを予測し、各カメラをピクセル整列Plückerレイマップに変換します。学習可能シーントークンをトランスフォーマーで更新し潜在シーン表現を推論します。明示的3Dガウシアンの利用により、従来の潜在空間アプローチよりも幾何学的に基礎づけられた表現を獲得できます。
2.3 新規性
E-RayZerの主な新規性は明示的3Dガウシアンを用いた直接3D空間操作にあります。これにより幾何学的により基礎づけられたポーズと真に3D認識的な潜在表現を生成します。視覚的重複に基づく学習カリキュラムは完全に教師なしの方法で実装され、フレームワークを3Dアノテーションから完全に解放します。
明示的3D幾何学の使用により、RayZerの報告にある明示的3Dでの非収束という重要な課題を克服しています。これにより、自己教師あり3D Vision学習の新しいパラダイムを確立しています。
3. 実験結果
3.1 実験設定
異なる訓練データスケールでE-RayZerの性能を系統的に研究しています。カメラポーズ推定、新規ビュー合成、下流3Dタスクでの転移学習性能を評価しています。DINOv3、CroCo v2、VideoMAE V2、Perception Encoder、RayZerなどの先行手法との包括的比較を実施しています。
実験では自己教師あり設定と教師あり設定の両方で評価し、E-RayZerが純粋に自己教師ありでありながら競合性能を達成することを実証しています。異種データソースでのスケーリング能力も検証しています。
3.2 主要な結果
E-RayZerはカメラポーズ推定でRayZerを大幅に上回る性能を示し、完全教師ありVGGTと同等または時に優る結果を達成しています。下流3Dタスクへの転移では、DINOv3、CroCo v2、VideoMAE V2、Perception Encoderなどの主要視覚事前学習モデルを上回る性能を示しています。
純粋自己教師ありでありながら、教師ありモデルと類似のスケーリングパターンを示し、データ量増加に伴う一貫した性能向上を確認しています。これは3D認識視覚事前学習の新しいパラダイムとしてのE-RayZerの地位を確立しています。
3.3 既存手法との比較
従来の自己教師あり3D Visionモデルとの比較では、E-RayZerは顕著に改善された教師なしカメラポーズ推定精度と3D下流タスクファインチューニング結果により、より強い3D理解能力を示しています。
主要視覚表現学習器との比較では、3D下流タスクへの転移でE-RayZerが一貫して優位性を示し、空間視覚事前学習の強力なパラダイムとして確立されています。教師ありモデルとの比較でも競合性能を示し、純粋自己教師ありアプローチの可能性を実証しています。
4. 実用性評価
4.1 実装の容易性
E-RayZerは既存のRayZerアーキテクチャをベースとして構築されており、実装の複雑さが軽減されています。3Dガウシアンスプラッティングは確立された技術であり、必要なコンポーネントは利用可能です。視覚的重複に基づくカリキュラム学習は直感的で実装しやすく、完全に教師なしの方法で動作します。
トランスフォーマーベースのアーキテクチャにより、既存の深層学習フレームワークとの統合が容易です。自己教師あり学習パラダイムにより、大量の3Dアノテーションデータ収集の負担が軽減されています。
4.2 計算効率
明示的3D表現の使用により、潜在空間アプローチよりも幾何学的に解釈可能で効率的な表現が可能です。細粒度学習カリキュラムにより訓練の安定性と収束性が向上し、全体的な計算効率が改善されています。
3Dガウシアンスプラッティングは効率的なレンダリングを提供し、リアルタイムアプリケーションへの適用可能性があります。自己教師あり学習により、教師ありアプローチで必要な計算集約的な前処理ステップを回避できます。
4.3 応用可能性
E-RayZerの学習済み表現は3D理解が必要な下流タスクに効果的に転移し、幅広い3D Visionアプリケーションでの利用可能性を示しています。自律運転、ロボティクス、AR/VR、3Dコンテンツ生成など多様な分野での応用が期待されます。
空間視覚事前学習フレームワークとして、将来の3D基盤モデル開発の基礎となる可能性があります。明示的3D幾何学による解釈可能性は、安全重要アプリケーションでの採用を促進します。
5. まとめと所感
5.1 論文の意義
この論文は3D Vision分野において自己教師あり学習の新しいパラダイムを確立する重要な貢献です。明示的3Dガウシアンを用いた直接3D空間操作により、従来の潜在空間アプローチの制限を克服し、真に3D認識的な表現学習を実現しています。
3Dアノテーションなしでの学習能力は、大規模3D Visionモデルの実用的開発を大幅に促進します。教師ありモデルと競合する性能を純粋自己教師ありで達成したことは、分野の発展に大きなインパクトを与える可能性があります。
5.2 今後の展望
視覚的重複に基づく学習カリキュラムの概念は他の3D学習タスクにも応用可能で、さらなる発展が期待されます。より大規模なデータセットとモデルでのスケーリング研究により、3D基盤モデルの実現に向けた道筋が明確になると考えられます。
動的シーンや複雑な幾何学への拡張、他のモダリティとの統合可能性の探求も重要な方向性です。産業応用への展開には、計算効率のさらなる最適化と実世界データでの頑健性検証が必要でしょう。