MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

著者 Zihan Wang、Jeff Tan、Tarasha Khurana、Neehar Peri、Deva Ramanan

所属 Carnegie Mellon University

投稿日 2025年7月31日

カテゴリ cs.CV

arXiv 2507.23782v1 ↗

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

基本情報

arXiv ID: 2507.23782v1 (https://arxiv.org/abs/2507.23782)
著者: Zihan Wang、Jeff Tan、Tarasha Khurana、Neehar Peri、Deva Ramanan
所属: Carnegie Mellon University
投稿日: 2025年7月31日
カテゴリ: cs.CV

簡単に説明すると

この論文は、わずか4台のカメラ（90度ずつ離れて配置）からの動画を使って、動的な3Dシーンを再構築する手法を提案しています。例えば、ピアノを弾く人やCPRを行う人の動きを、少ない視点から高品質に3D再構築できます。従来手法では数百台のカメラが必要でしたが、本手法は各視点からの単眼深度推定（MoGe）を慎重に位置合わせすることで、時間的・視点的に一貫性のある4D再構築を実現しています。コードとデータはGitHubで公開されています。
https://github.com/ImNotPrepared/MonoFusion

1. 研究概要

1.1 背景と動機

動的3Dシーンの多視点動画からの正確な再構築は、AR/VR、自動運転、ロボティクスなど様々な分野で重要な技術です。従来の研究では、数十台の校正済みカメラを必要とする密な多視点動画を前提としていました。これらの専用キャプチャスタジオは構築コストが非常に高く、実世界の多様なシーンへのスケーリングが困難でした。

本研究では、4台の等間隔に配置された内向きの静止カメラという、多視点データ収集の容易さと情報量のバランスを取ったセットアップを採用しています。このような疎視点・限定オーバーラップ再構築は、密な多視点セットアップや大きな共視性を持つ典型的な「疎視点」キャプチャとは異なる独自の課題を提示します。

密な多視点キャプチャでは、幾何学的・測光的手がかりのみに頼ることで十分な場合が多く、非剛体構造からの運動推定などの古典的技術を活用できます。しかし、クロスビュー対応が限られた疎視点設定では、これらの手法は失敗してしまいます。

1.2 主要な貢献

本研究では、疎視点再構築を単眼幾何の推定器で初期化することで、より高品質な結果を得られることを発見しました。しかし、独立した単眼幾何推定を単純にマージすると、視点間で一貫性のない幾何を生成する場合があります。代わりに、各視点と時刻で独立に予測された単眼再構築を、静的な多視点の再構築手法から学習したグローバル参照フレームに慎重に位置合わせします。

主な貢献は以下の3点です。

実世界の疎視点カメラから熟練した人間の行動を再構築する課題を強調
単眼深度と基盤的な事前知識を慎重に取り入れることで、単眼再構築の手法を疎視点設定に拡張できることを実証
設計選択を広範に検証し、PanopticStudioとEgo-Exo4Dの困難なシーケンスで最先端性能を達成

2. 提案手法

2.1 手法の概要

提案手法は、静止カメラからの疎視点（3-4台）動画を入力として、動的3Dシーンの幾何と動きを復元します。シーンは正準3Dガウシアンとしてモデル化され、これらは動き基底の線形結合によって平行移動と回転します。

手法の主要コンポーネントは以下の通りです。

複数視点からの幾何予測を慎重に位置合わせすることで一貫性のあるシーン幾何を初期化
2D基盤モデルから抽出した3D意味特徴をクラスタリングすることで動き軌跡を初期化
幾何と動きを同時に復元する共同最適化を定式化

2.2 技術的詳細

時空間で一貫した深度初期化では、まずDUSt3Rを使用して特定時刻の多視点画像に対して実行し、既知の静止カメラ外部パラメータと制約付きでグローバル最適化を行います。これにより、メトリック座標での画像ごとのグローバルポイントマップが生成されます。

しかし、このような多視点予測器は、動的な人間を外れ値として扱う多視点データで訓練されているため、人間に対しては性能低下の傾向を示します。そのため、MoGeなどの単眼深度の推定器を使用することで、はるかに正確な結果を得られます。ただし、これらの予測はメトリックではなく、視点や時刻間で一貫性は保証されません。

そこで、DUSt3Rからの多視点深度マップをメトリックターゲットとして使用し、単眼深度予測を位置合わせする戦略を採用します。具体的には、背景ピクセルに対してスケールとシフト係数を最適化し、すべての単眼深度予測を位置合わせします。

動き基底による初期化では、シーン内の3D動きが低次元であり、意味的に類似した部分が一緒に動く傾向があるという観察を活用します。DINOv2を使用してピクセルレベルの特徴を取得し、k-meansクラスタリングを実行して3Dポイントの初期クラスタを生成します。

2.3 新規性

既存手法との主な違いは以下の通りです。

疎視点設定に特化した単眼深度推定の活用と位置合わせ手法
静的な多視点の再構築器を参照フレームとして使用する新しいアプローチ
特徴ベースのクラスタリングによる動き基底の初期化（3Dトラッキングに依存しない）
固定カメラの制約を活用した時間的一貫性の強制

3. 実験結果

3.1 実験設定

評価は2つのデータセットで実施されました。Panoptic Studioは480台のカメラを持つ大規模多視点キャプチャシステムから、90度離れた4台のカメラを手動で選択して使用します。ExoReconは、Ego-Exo4Dデータセットから6つの異なるシナリオ（ダンス、スポーツ、自転車修理、料理、音楽、ヘルスケア）から各1シーンを選択したサブセットです。

評価指標として、知覚品質（PSNR、SSIM、LPIPS）と幾何品質（AbsRel深度誤差）を使用します。また、動的前景シルエットの品質をマスクIoUで評価します。

3.2 主要な結果

ホールドアウトビューでの評価では、提案手法は両データセットで最先端手法を上回りました。Panoptic Studioでは、PSNR 28.01、SSIM 0.899、LPIPS 0.117、AbsRel 0.149を達成しました。ExoReconでは、PSNR 30.43、SSIM 0.927、LPIPS 0.061、AbsRel 0.290を達成しました。

45度の新規視点合成では、Panoptic Studioの評価カメラを使用した実験で、提案手法がすべてのベースラインを上回りました。PSNR 25.73、SSIM 0.847、LPIPS 0.158、IoU 0.943を達成しました。

3.3 既存手法との比較

Dynamic 3D Gaussians、Shape of Motion（SOM）、およびSOMの多視点拡張（MV-SOM）と比較しました。Dynamic 3D Gaussiansは4視点でCOLMAPが失敗するため、27視点のCOLMAP結果で初期化する必要がありました。

単眼4D再構築手法SOMは、正確なメトリック深度を出力できないことが多いものの、限定的なカメラシフトに対して堅牢でした。これは、基盤的な事前知識により、制約不足のシナリオでも妥当な結果を生成できるためと考えられます。

アブレーション研究では、提案する時空間で一貫した深度が正確なシーン幾何と外観の学習に重要な役割を果たすことが示されました（3.4 PSNRの改善）。特徴ベースの動き基底は、速度ベースの動き基底よりも優れた性能を示しました。

4. 実用性評価

4.1 実装の容易性

実装はAdamオプティマイザを使用し、前景に18,000個、背景に120万個のガウシアンを使用します。SE(3)動き基底の数は28に固定し、特徴クラスタリングから取得します。コードはGitHubで公開されており、標準的な深層学習環境で実行可能です。

4.2 計算効率

512×288解像度の10秒間の動画（30fps）の訓練に、単一のNVIDIA A6000 GPUで約30分かかります。レンダリング速度は約30fpsで、リアルタイムアプリケーションに適しています。深度位置合わせの最適化は各時刻と視点で独立に実行できるため、長い動画にも容易にスケーリングできます。

4.3 応用可能性

本手法は、AR/VR、自動運転、ロボティクスなど、動的3Dシーン再構築が必要な様々な分野に適用可能です。特に、ポータブルな4台のカメラセットアップは、専用スタジオを必要としない実世界での応用に適しています。Ego-Exo4Dのような大規模データセットとの互換性により、熟練した人間の行動の記録と分析にも活用できます。

5. まとめと所感

5.1 論文の意義

本研究は、疎視点での動的再構築という困難な問題に対して、実用的かつ効果的な解決策を提供しています。高価な密な多視点セットアップと制約の少ない単眼キャプチャの間のバランスを取ることで、実世界での応用可能性を飛躍的に拡大しました。

特に、単眼深度推定の強みと多視点一貫性の必要性を巧みに組み合わせたアプローチは、今後の研究の方向性を示すものとして高く評価できます。また、固定カメラの制約を積極的に活用することで、問題を簡略化しながら高品質な結果を達成している点も注目に値します。

5.2 今後の展望

今後の研究では、より多様なカメラ配置への対応や、動的カメラへの拡張が期待されます。また、より長時間の動画や複雑なシーンへの適用、リアルタイム処理の実現なども重要な課題です。

さらに、本手法で生成された4D再構築を下流タスク（動作認識、インタラクション理解など）に活用する研究や、他のモダリティ（音声、触覚など）との統合も興味深い研究方向です。疎視点設定の利点を活かした、より多様な実世界シナリオへの展開が期待されます。