LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

著者 Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
所属 National Yang Ming Chiao Tung University, NVIDIA Research
投稿日 2025年8月26日
カテゴリ cs.CV

LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

基本情報

  • arXiv ID: 2508.14041v1 (https://arxiv.org/abs/2508.14041)
  • 著者: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
  • 所属: National Yang Ming Chiao Tung University, NVIDIA Research
  • 投稿日: 2025年8月26日
  • カテゴリ: cs.CV

簡単に説明すると

この論文は、スマートフォンなどで気軽に撮影された長時間の動画から、カメラの位置情報(ポーズ)がない状態でも高品質な3D再構成を行う技術「LongSplat」を提案しています。従来手法では、カメラポーズの推定失敗やメモリ不足により長時間動画の処理が困難でした。しかし、LongSplatはポーズ推定と3D Gaussian Splattingを同時最適化することで、数百から数千フレームの長時間動画でも安定した3D再構成を実現しています。また、適応的オクツリー構造によりメモリ効率を向上させています。プロジェクトページ(https://linjohnss.github.io/longsplat/)では実際の結果を確認できます。

1. 研究概要

1.1 背景と動機

現代のスマートフォンやアクションカメラの普及により、カジュアルに撮影された動画から3D再構成を行うニーズが高まっています。これらの動画は、仮想現実・拡張現実、バーチャル観光、文化財保存、映像編集における手ぶれ補正、視覚効果、不動産のデジタルマッピングなど、様々なアプリケーションで重要な役割を果たしています。しかし、カジュアル動画には複数の技術的課題が存在します。

従来の3D再構成手法は、Structure-from-Motion(SfM)による正確なカメラポーズを前提としています。しかし、カジュアル動画では不規則なカメラ軌道や長時間のシーケンスにより、COLMAPなどのSfM手法が頻繁に失敗します。また、長時間動画に対応した手法では深刻なメモリ制約に直面し、大規模シーンでOut-of-Memory(OOM)エラーが発生します。さらに、MASt3Rなどの3D基盤モデルは高速な初期推定を提供しますが、長時間動画では誤差の蓄積やスケールドリフトが生じ、再構成品質が劣化します。

これらの課題に対処するため、著者らは統合的なアプローチが必要であると主張しています。単純にポーズ推定と3D再構成を別々に行うのではなく、両者を同時に最適化し、長時間動画特有の課題に適応的に対応する新しいフレームワークが求められています。

1.2 主要な貢献

LongSplatの主要な技術的貢献は以下の3つに集約されます。

まず、段階的同時最適化手法(Incremental Joint Optimization)の導入です。これは、カメラポーズと3D Gaussian Splatting(3DGS)の同時最適化により、局所最適解を回避し、長時間動画全体にわたって幾何学的一貫性とグローバル精度を維持します。従来手法では、不正確な初期ポーズが原因で最適化が局所解に陥りやすかったのですが、この同時最適化により、フレーム間の相互制約を活用して安定した解を得ることができます。

次に、学習済み3D事前知識を活用したロバストなポーズ推定モジュール(Robust Pose Estimation Module)の開発です。このモジュールは、対応点ガイド付きPnP初期化と光度学的精細化を組み合わせています。大規模で非構造的なカメラ運動下でも正確なカメラポーズ推定を実現します。MASt3Rの特徴マッチング機能を活用して2D-3D対応を確立し、RANSACフィルタリングによりロバストな初期ポーズを推定した後、光度学的再投影誤差を最小化することでポーズを精細化します。

最後に、適応的オクツリーアンカー形成(Adaptive Octree Anchor Formation)メカニズムの実装です。これは、密な点群を空間密度に基づいてアンカーに変換し、メモリ使用量を約3分の1に削減しながら詳細なシーン構造を保持します。従来のScaffold-GSの固定解像度グリッドやOctree-GSの事前設定パラメータとは異なり、点群密度に基づいて動的にボクセルサイズを調整することで、シーンの複雑さに適応的に対応します。

  • カメラポーズと3DGSの段階的同時最適化による局所最適解の回避とグローバル一貫性の確保
  • 学習済み3D事前知識を活用したロバストなポーズ推定モジュールによる正確なカメラ追跡
  • 適応的オクツリーアンカー形成による約67%のメモリ削減と品質保持の両立

2. 提案手法

2.1 手法の概要

LongSplatは、未知のカメラポーズと制約のない軌道を持つ長時間動画シーケンスの再構成を、オクツリーベースのアンカー付き3D Gaussian Splattingに基づく完全段階的パイプラインで実現します。システムは、対応点ガイド付きポーズ推定と3D Gaussianの段階的精細化を交互に実行し、初期フレームセットから開始して各新フレームでポーズとGaussianを同時最適化しながらシーンを段階的に拡張します。

処理フローの詳細

  1. オクツリーアンカー形成:フレーム毎の密な点群を適応的表現に構造化
  2. ポーズ推定・精細化:対応点ガイド初期化と光度学的整列を使用
  3. 局所最適化:可視性適応ウィンドウ内でGaussianを更新
  4. グローバル精細化:長期的一貫性を保証

この設計により、LongSplatは長く制約のない軌道を頑健に処理しながら、シーンの複雑さに適用してドリフトを最小化できます。

全体的なアーキテクチャは3つの主要コンポーネントから構成されます。Pose Estimation Moduleは対応点ガイド付きPnPと光度学的精細化により正確なカメラポーズを生成し、Adaptive Octree Anchor Formation戦略は局所点密度に基づいて効率的な空間アンカーを構築し、統合最適化プロセスは可視性適応ウィンドウでの局所更新とグローバル精細化を交互実行してフレーム間の一貫性を維持します。

2.2 技術的詳細

3D Gaussian Splattingの基礎として、各Gaussianは中心位置μ∈ℝ³、共分散行列Σ、色、スケール、回転、不透明度により定義されます。共分散行列は回転行列R∈SO(3)と対角スケール行列Sに因数分解され、Σ = RSS^TR^Tで表現されます。これにより各Gaussianは局所的なシーン幾何学を適応的に捉えることができます。

レンダリング時には、各Gaussianはカメラポーズ W を用いて画像平面に投影され、2D Gaussianとして共分散 Σ₂D = JWΣWᵀJᵀ を持ちます。ここでJは射影変換のヤコビアンです。最終的なレンダリング色と深度は、アルファブレンディングにより計算されます:C = Σᵢ cᵢαᵢ Πⱼ₌₁ⁱ⁻¹(1-αⱼ)、D = Σᵢ dᵢαᵢ Πⱼ₌₁ⁱ⁻¹(1-αⱼ)。

アンカーベース3DGSでは、大規模シーンでのメモリ効率と頑健性向上のため、個々のGaussianを直接維持する代わりに、シーンをスパースボクセルに分割し、各ボクセルがアンカーとして機能します。各アンカーから複数個のGaussianが初期化され、位置はアンカー中心に対して相対的に配置されます:{μ₀, μ₁, ..., μₖ₋₁} = xᵥ + {O₀, O₁, ..., Oₖ₋₁} · lᵥ。ここで、xᵥはアンカー位置、{Oᵢ}はオフセットベクトル、lᵥはスケーリング因子です。

オクツリーアンカー形成では、MASt3Rのフレーム毎密な点群を適応的オクツリー構造を用いて構造化アンカーに変換します。各点群P = {pᵢ}は解像度ε₀でスパースグリッドにボクセル化され、密度閾値τₛₚₗᵢₜを超えるボクセルは8つの小さなボクセルに分割されます:εₗ₊₁ = (1/2)εₗ。このプロセスは最大レベルLまで繰り返され、低密度ボクセル(密度 ρᵥ < τₚᵣᵤₙₑ)は冗長性削減のため除去されます。

ポーズ推定モジュールでは、MASt3Rから得られる2D-3D対応を用いて各ポーズを推定し、現在の3D Gaussianシーンに対する光度学的精細化により進化する3D構造との一貫性を維持します。2D-3D対応ガイド付きPnP初期化により、新フレームと前フレーム間の2Dキーポイント対応をMASt3Rの特徴マッチングモジュールで抽出します。前フレームの3DGSからレンダリングされた深度マップと組み合わせて2D-3D対応を得ます。RANSACフィルタリングを伴うPnPソルバーにより頑健な初期ポーズを推定します。

2.3 新規性

LongSplatの新規性は、従来手法の根本的限界に対する統合的アプローチにあります。第一に、SfM依存からの脱却です。従来手法はCOLMAPなどのSfM前処理に依存していましたが、カジュアル動画では頻繁に失敗します。LongSplatは3D基盤モデルMASt3Rを活用し、その出力をソフト事前知識として扱いながら3DGSと同時最適化することで、SfM不要の頑健な再構成を実現しています。

第二に、適応的メモリ管理です。従来のScaffold-GSは固定解像度グリッド、Octree-GSは事前設定パラメータに依存していましたが、LongSplatは点群密度に基づく動的ボクセルサイズ調整により、シーン複雑さに応じた適応的メモリ管理を行います。これにより、スパースな領域は大きなGaussianで、密な領域は細かいGaussianで効率的に表現されます。

第三に、統合最適化戦略です。従来手法がポーズ推定と3D再構成を独立に扱っていたのに対し、LongSplatは両者を統合フレームワークで同時最適化します。局所最適化(可視性適応ウィンドウ内でのGaussian更新)とグローバル精細化(長期一貫性保証)の交互実行により、局所最適解を回避しながらグローバル一貫性を維持します。

第四に、スケールドリフト対策です。MASt3Rなどの基盤モデルは長時間動画でスケールドリフトに悩まされますが、LongSplatはステレオ整列機能を活用し、フレーム間スケール比を推定・補正することで一貫したスケールを維持します。この多層的アプローチにより、従来手法では困難だった長時間カジュアル動画の頑健な3D再構成を可能にしています。

3. 実験結果

3.1 実験設定

LongSplatの評価は、難易度の異なる3つの実世界データセットで実施されました。Tanks and Temples(標準難易度)は、滑らかな前向きカメラ軌道を持つ8つの屋内外シーンで構成され、フルリゾリューションで8フレーム毎にテストされます。Free Dataset(中難易度)は、複数の前景オブジェクトを含む複雑で制約のない軌道を持つ7つの手持ち動画で構成され、頻繁なシーン変化により効率的な3D表現が不可欠となります。1/2リゾリューションで8フレーム毎にテストされます。Hike Dataset(高難易度)は、数百から数千フレームの長時間動画で複雑な軌道と詳細な幾何学を持ち、規模と持続時間により適応的メモリ管理が要求されます。1/4リゾリューションで10フレーム毎にテストされます。

評価指標として、新規視点合成品質はPSNR、SSIM、LPIPSで評価され、ポーズ精度はCOLMAPポーズを基準真値としてAbsolute Trajectory Error(ATE)とRelative Pose Error(RPE)で測定されます。計算効率の評価には、モデルサイズ(MB)、訓練時間(時間)、FPSが報告されます。

ベースライン手法として、COLMAPベース手法(COLMAP + F2-NeRF/3DGS/Scaffold-GS)と、未知ポーズ手法(NoPe-NeRF、LocalRF、CF-3DGS)との比較が行われました。さらに、MASt3Rの予測点群とポーズをScaffold-GSと組み合わせたナイーブベースラインも評価され、訓練中にカメラポーズを固定(MASt3R + Scaffold-GS)または同時最適化(MASt3R + Scaffold-GS*)する2つのバリエーションが検討されました。

3.2 主要な結果

実験結果は、LongSplatが全データセットにわたって一貫して優れた性能を示すことを実証しています。定量的結果では、新規視点合成品質において従来手法を上回り、特に長時間動画での優位性が顕著です。Free Datasetでは、LongSplatは平均PSNR で既存最良手法を2-3dB上回り、SSIMとLPIPSでも明確な改善を示しました。Hike Datasetの困難なシーンでは、従来手法の多くが失敗またはメモリ不足で完了できない中、LongSplatは安定した高品質再構成を実現しています。

ポーズ精度の面では、ATE(絶対軌道誤差)とRPE(相対ポーズ誤差)の両方でLongSplatが最良性能を示しています。特に長時間シーケンスでは、従来手法で深刻なドリフト問題が発生する中、LongSplatの同時最適化戦略により累積誤差が抑制されています。MASt3Rの初期推定と比較して、LongSplatの精細化により軌道精度が50-70%改善される場合も報告されています。

計算効率の評価では、LongSplatのオクツリーアンカー形成によりメモリ使用量が従来手法の約1/3に削減され、大規模シーンでも安定動作が可能となっています。訓練時間は従来のNeRFベース手法(LocalRF等)の10時間以上に対して、LongSplatは2-4時間に短縮されています。リアルタイムレンダリング(30+ FPS)も維持されており、インタラクティブアプリケーションへの適用可能性を示しています。

3.3 既存手法との比較

COLMAPベース手法との比較では、SfMが成功する場合の品質は競合的ですが、カジュアル動画でのSfM失敗率の高さ(30-50%)により実用性に限界があります。LongSplatはSfM不要でより広範囲のシーンに対応できる利点を持ちます。特に、手持ち撮影や不規則な軌道を含む動画では、COLMAPの完全失敗に対してLongSplatは安定した結果を提供します。

未知ポーズ手法との比較では、NoPe-NeRFやLocalRFは小規模シーンでは競合的ですが、長時間動画では著しく性能が劣化します。CF-3DGSは3DGSベースでありながらメモリ制約により大規模シーンで失敗することが多いのです。LongSplatは全規模において安定した性能を維持し、特に1000フレーム超のシーケンスでは他手法が破綻する中で唯一実用的な結果を提供しています。

MASt3Rベースライン(MASt3R + Scaffold-GS)との比較は特に重要です。MASt3Rの生出力を直接使用した場合、初期段階では合理的な結果を得られますが、長時間動画では急速に品質が劣化します。同時最適化版(MASt3R + Scaffold-GS*)でも部分的改善に留まります。これに対してLongSplatは、MASt3Rの出力をソフト事前知識として活用しながら統合最適化により一貫した高品質を維持し、基盤モデル活用の効果的アプローチを実証しています。

アブレーション研究では、各コンポーネントの寄与が明確に示されています。オクツリーアンカー形成はメモリ効率と品質のバランスを最適化し、同時最適化はポーズ精度を向上させ、適応的ウィンドウは局所詳細と大域一貫性を両立させることが確認されています。これらの結果は、LongSplatの設計選択が理論的に妥当で実践的に効果的であることを示しています。

4. 実用性評価

4.1 実装の容易性

LongSplatの実装容易性は、既存フレームワークとの統合性と技術的複雑性の観点から評価できます。基盤となる3D Gaussian Splattingは比較的理解しやすい表現であり、PyTorchやCUDAを用いた実装が可能です。MASt3Rなどの基盤モデルも事前訓練済みモデルとして利用でき、ゼロからの開発が不要である点は実装の障壁を下げています。

しかし、システム全体の複雑性は相当です。オクツリーアンカー形成、動的メモリ管理、同時最適化の統合には、複数の専門知識が必要となります。特に、可視性適用ウィンドウの実装、PnPソルバーとRANSACの統合、スケールドリフト補正機構などは、コンピュータビジョンとグラフィックスの深い理解を要求します。実装者は、3D幾何学、カメラモデル、最適化理論、GPUプログラミングに精通している必要があります。

論文には詳細なアルゴリズム記述があり、数式も明確に示されているため、理論的理解は可能です。しかし、実装の細部(ハイパーパラメータ調整、収束判定、エラーハンドリング)については追加的な実験が必要となります。プロジェクトページでコードが公開される可能性があり、それにより実装容易性は向上すると予想されます。全体として、専門知識を持つ開発者にとっては実装可能ですが、初心者には挑戦的な技術レベルといえます。

4.2 計算効率

LongSplatの計算効率は、従来手法と比較して改善を示しています。メモリ効率の面では、オクツリーアンカー形成により使用メモリが従来手法の約1/3に削減され、大規模シーンでもOOMエラーを回避できます。これは、密度に基づく適応的ボクセルサイズ調整により、必要な領域のみで高解像度表現を行い、スパース領域では粗い表現を用いることで実現されています。

訓練時間は、従来のNeRFベース手法(LocalRF等)の10時間以上に対して、LongSplatは2-4時間に短縮されています。これは、3D Gaussian Splattingの明示的表現と効果的な最適化戦略によるものです。段階的処理により、全フレームを同時処理する必要がなく、メモリ使用量の平準化も図られています。

レンダリング速度では、リアルタイム性能(30+ FPS)が維持されており、インタラクティブアプリケーションに適用可能です。これは3DGSの主要利点の1つであり、NeRFベース手法では困難な性能レベルです。ただし、初期構築時間は動画長に比例して増加するため、極長時間動画(数千フレーム)では全体処理時間が数時間に及ぶ可能性があります。

GPU要件は比較的高く、大規模シーンでは高性能GPU(RTX 3080以上)が推奨されます。しかし、適応的メモリ管理により、メモリ制約下でもグレースフルデグラデーションが可能です。計算複雑度は動画長とシーン複雑度に依存しますが、線形スケーラビリティを概ね維持しています。全体として、現実的な計算資源で実用的な処理時間を実現しています。

4.3 応用可能性

LongSplatの応用可能性は非常に広範囲に及びます。まず、エンターテイメント分野では、映画・ゲーム制作における背景3Dモデル生成、バーチャルツーリズムのコンテンツ作成、インタラクティブ体験の開発などに活用できます。スマートフォンで撮影した観光地動画から没入感のある3D体験を生成することが可能になります。

建築・不動産分野では、物件の3Dバーチャルツアー作成、建設現場の進捗記録、歴史的建造物の文化財保存に応用できます。従来のような高価な3Dスキャニング機器を必要とせず、一般的なデバイスで高品質な3Dモデルを構築できる点は革新的です。

教育・研究分野では、考古学的発掘現場の記録、地質調査の可視化、生物学的観察の3D記録などが考えられます。長時間にわたる変化プロセスを3Dで記録・分析することが可能になります。医療分野では、手術手技の3D記録、リハビリテーション過程の追跡、医学教育用コンテンツ作成への応用が期待されます。

自動運転・ロボティクス分野では、環境マッピング、ナビゲーション用3Dマップ生成、移動ロボットの環境認識に活用できます。リアルタイム性能により、動的環境での応用も可能です。また、製造業では、設備点検、品質管理、作業手順の3D記録などの産業応用が考えられます。

技術的制約として、静的シーン前提、固定内在パラメータ要求などがありますが、これらは多くの実用的シナリオで受容可能です。LongSplatの汎用性と実用性は、3D再構成技術の民主化に貢献し、専門技術者以外にも高品質な3Dコンテンツ作成を可能にする潜在力を持っています。

5. まとめと所感

5.1 論文の意義

本論文は、カジュアル動画からの3D再構成分野における重要な技術的ブレークスルーを達成しています。従来手法の根本的限界(SfM依存、メモリ制約、長時間動画での破綻)に対する統合的解決策を提示し、理論的妥当性と実践的有効性を両立させている点が特に評価されます。

技術的貢献の観点から、同時最適化戦略による局所解回避、適応的オクツリーによるメモリ効率化、基盤モデル活用によるロバスト性向上は、それぞれ独立した価値を持ちながら、統合により相乗効果を発揮しています。この統合的アプローチは、複雑な実世界問題に対する工学的解決策として優れており、他の3D再構成課題への応用可能性も高いです。

実用的インパクトとして、3D再構成技術の民主化への寄与が大きいです。高価な専用機器や専門知識なしに、一般的なデバイスで高品質な3Dコンテンツを作成できる技術は、VR/AR、教育、文化財保存など多分野での活用を促進します。特に、長時間動画対応により、時間的変化を含む3D記録が可能になる点は革新的です。

学術的意義として、3D基盤モデルの効果的活用法を示し、完全自動パイプラインから事前知識活用型パイプラインへのパラダイム転換を提案しています。MASt3Rの出力をソフト事前知識として扱う発想は、基盤モデル時代における3D再構成研究の新しい方向性を示唆しています。また、実験の包括性と比較の公平性により、手法の有効性が説得力を持って実証されています。

5.2 今後の展望

技術的発展の方向性として、まず動的シーン対応が重要な課題となります。現在の静的シーン前提を緩和し、動的オブジェクトを含むシーンでの3D再構成が求められます。時間的一貫性を保ちながら動的要素を分離・追跡する技術の統合により、より実用的なシステムが実現できます。

カメラモデルの拡張も重要です。固定内在パラメータ前提の緩和により、ズーム変化やフォーカス変化を含む動画への対応が可能になります。自動較正機能の統合により、より柔軟な撮影条件での利用が期待されます。リアルタイム処理への発展により、ライブストリーミングやリアルタイムアプリケーションへの展開も考えられます。

応用分野の拡大として、医療分野での手術記録、製造業での品質管理、教育での体験型学習コンテンツ作成などが有望です。特に、時間的変化を伴うプロセスの3D記録・解析において独自の価値を提供できます。モバイルデバイス最適化により、スマートフォンアプリとしての普及も期待されます。

研究の継続発展として、他の基盤モデル(DUSt3R、Fast3r等)との統合実験、より効果的な同時最適化アルゴリズムの開発、品質評価メトリクスの改善などが考えられます。また、大規模データセットでの追加検証により、手法の一般化性能をさらに向上させることができます。

長期的には、LongSplatが示した統合的アプローチが3D再構成分野の標準的手法となり、基盤モデル時代における新しい研究パラダイムの確立に貢献することが期待されます。技術の成熟により、3Dコンテンツ作成の完全民主化が実現し、社会全体でのデジタル3D体験の普及が促進されるでしょう。