π³: Scalable Permutation-Equivariant Visual Geometry Learning

著者 Yifan Wang他（Shanghai AI Lab、ZJU、SII）

所属

投稿日 2025年7月18日

カテゴリ cs.CV

arXiv 2507.13347v1 ↗

π³: Scalable Permutation-Equivariant Visual Geometry Learning

基本情報

arXiv ID: 2507.13347v1 (https://arxiv.org/abs/2507.13347)
著者: Yifan Wang他（Shanghai AI Lab、ZJU、SII）
論文URL: https://arxiv.org/abs/2507.13347
投稿日: 2025年7月18日
カテゴリ: cs.CV

簡単に説明すると

この論文は、3D復元技術における新しいアプローチ「π³」を提案しています。これは、複数の画像から3Dシーンを復元する技術です。

従来の手法では、複数の画像から3Dを復元する際に「基準となる視点」を1つ決めて、それを中心に復元した。しかし、どの視点を基準にするかで結果が大きく変わってしまう問題があった。

π³は、どの視点を基準にしても安定した結果を得られる「順序を問わない」アーキテクチャを採用している。これにより、従来手法よりも高速で正確な3D復元が可能になった。実験では、カメラ位置推定や深度推定など、様々なタスクで最高性能を達成している。

プロジェクトページ: https://yyfz.github.io/pi3
GitHub: https://github.com/yyfz/Pi3
デモ: https://huggingface.co/spaces/yyfz233/Pi3

1. 研究概要

1.1 背景と動機

視覚幾何復元はコンピュータビジョンの中核的な問題で、AR、ロボティクス、自動運転など、幅広い応用があります。伝統的にはバンドル調整などの最適化を反復する手法が使われてきましたが、最近ではDUSt3Rやその後継手法など、深層学習ベースのフィードフォワードネットワークが大きな進歩を遂げています。

しかし、従来手法や最新の深層学習手法の両方に共通する根本的な問題があります。それは、単一の固定された参照視点への依存です。選ばれた視点のカメラ座標系がグローバルな参照枠として扱われ、これは伝統的なSfMやMVSから受け継がれた慣習です。論文の著者らは、この設計選択がフィードフォワードニューラルネットワークの性能を本質的に制限する不要な帰納バイアスを導入していると主張しています。

実験により、この任意の参照視点への依存により、最新のVGGTを含む既存手法が初期視点の選択に非常に敏感であることが示されました。良い選択ができない場合は復元品質の低下につながり、ロバストでスケーラブルなシステムの開発を妨げています。

1.2 主要な貢献

本論文の主要な貢献は以下の4つです。

視覚幾何復元における固定参照視点への依存が持つ問題を体系的に特定し、この一般的な設計選択が有害な帰納バイアスを導入してモデルのロバスト性と性能を制限することを初めて示した
π³という新しい順序同変なアーキテクチャを提案し、このバイアスを排除。
モデルは純粋に相対的な方法で、各視点ごとにアフィン不変なカメラ姿勢とスケール不変なポイントマップを予測し、
グローバル座標系の必要性を排除
幅広いベンチマークでの実験を通じて、π³がカメラ姿勢推定、単眼/動画深度推定、ポイントマップ復元の幅広いタスクで新たな最高性能を達成し、従来の先端手法を上回ることを実証
提案アプローチが入力視点の順序に対して非常にロバストで、モデルサイズに対してスケーラブルであり、
訓練中の収束が高速であることを示した

2. 提案手法

2.1 手法の概要

π³の中核は、順序同変（permutation-equivariant）アーキテクチャです。これは、入力画像の順序を変えても、それに対応して出力も同じように変わることを保証します。

具体的には、N枚の画像列S = (I₁, ..., Iₙ)を入力とし、ネットワークφは以下を出力します。

カメラ姿勢 Tᵢ ∈ SE(3)
ピクセル整合された3Dポイントマップ Xᵢ ∈ ℝᴴˣᵂˣ³
信頼度マップ Cᵢ ∈ ℝᴴˣᵂ

各ポイントクラウドは自身のローカルカメラ座標系で定義され、グローバル座標系は必要ありません。

2.2 技術的詳細

スケール不変なローカル幾何

単眼復元の固有のスケール曖昧性に対処するため、ネットワークはシーン全体で一貫した未知のスケール係数までポイントクラウドを予測します。訓練時には、予測されたポイントマップと正解データを整合するために、
深度重み付きL1距離を最小化する最適スケール係数s*を求めます。

アフィン不変なカメラ姿勢

順序同変性とスケール曖昧性により、出力カメラ姿勢は任意の類似変換（剛体変換＋スケール）までしか定義されません。そのため、ネットワークは視点間の相対姿勢で監督されます。
相対回転はグローバル変換に不変ですが、相対並進の大きさは曖昧です。
これはポイントマップの整合で計算された最適スケール係数を活用して解決されます。

訓練

モデルは、ポイント復元損失、法線損失、信頼度損失、カメラ姿勢損失の重み付き和を最小化してエンドツーエンドで訓練されます。訓練には15の多様なデータセットの大規模な集約を使用し、
屋内外環境、合成から実世界のキャプチャまで幅広いシーンをカバーしています。

2.3 新規性

π³の新規性は以下の点にあります。

参照視点の排除: 従来手法が特別なトークンや学習可能な埋め込みを使って参照視点を指定するのとは異なり、π³はこの要件を排除。すべての順序依存コンポーネント（位置埋め込みなど）を省略し、相対的な監督を採用。
順序同変性: 数学的に順序同変性を保証し、入力順序に関わらず一貫した出力を生成。これにより、従来手法では参照視点の選択によって大きく変動していた性能が安定。
スケーラビリティと収束速度: 実験結果は、π³がモデルサイズに対して優れたスケーラビリティを示し、従来手法よりも高速に収束することを示す。
実世界カメラパスの低次元構造の活用: 実世界のカメラパスが高度に構造化されており、低次元の多様体上にあるという洞察に基づく。例えば、物体の周りを回るカメラは球面上を動き、車載カメラは曲線をたどる。

3. 実験結果

3.1 実験設定

著者らは4つのタスクで手法を評価しています。

カメラ姿勢推定
ポイントマップ推定
動画深度推定
単眼深度推定

すべてのタスクにおいて、既存のフィードフォワード3D復元手法に対して最高性能または同等の性能を達成しています。

また、以下の分析も実施しています。

入力画像シーケンスの順列に対するロバスト性評価
スケール不変ポイントマップとアフィン不変カメラ姿勢のアブレーション研究
モデルサイズに対するスケーラビリティ分析

3.2 主要な結果

カメラ姿勢推定

RealEstate10Kでは、π³がゼロショット汎化で新たなSOTAを達成（AUC@30: 85.90）。Co3Dv2でもSOTAに匹敵する性能（AUC@30: 88.41）を示しました。特にSintelデータセットでは、VGGTのATE 0.167から0.074に改善し、他のアプローチを上回りました。

ポイントマップ推定

DTU、ETH3D、7-Scenes、NRGBDデータセットで評価し、多くの指標で最高性能を達成。スパースビューとデンスビューの両方の条件で
一貫してロバストな性能を示しました。

動画深度推定

Sintel、Bonn、KITTIデータセットのすべてで、スケールのみのアラインメントとスケール+シフトのアラインメントの両方で新たなSOTAを達成。特にSintelではVGGTのスケール整合済み相対誤差0.299から0.233に改善しました。

また、効率性も優れており、KITTIでは57.4 FPSを達成しました。
VGGT（43.2 FPS）やAether（6.14 FPS）よりも高速で、モデルサイズも小さいです。

単眼深度推定

単一フレーム深度推定用に明示的に最適化されていないにも関わらず、π³はマルチフレームのフィードフォワード復元アプローチの中でSOTAを達成しました。トップパフォーマーの単眼深度推定モデルであるMoGeと競争力のある性能を示しました。

3.3 既存手法との比較

ロバスト性評価

DTUとETH3Dデータセットで順序同変性を検証した結果、π³はすべての指標でほぼゼロの標準偏差を達成し、既存アプローチを数桁上回りました。例えば、DTUでの平均精度の標準偏差は0.003で、VGGTの0.033と比較して低いです。
ETH3Dでは実質的にゼロの分散を達成しました。

スケーラビリティ評価

順序同変な（PI）アーキテクチャを、非PIベースラインとSmall（196.49Mパラメータ）、Base（390.13M）、Large（892.37M）の3つのモデルサイズで比較しました。PIアーキテクチャは明確で一貫した利点を示し、Largeモデルではベースラインに対して45%の改善を達成しました。また、高速な収束を示し、サンプル効率の向上を反映しています。

アブレーション研究

スケール不変ポイントマップの追加により、指標が0.1498から0.1145に改善しました。
アフィン不変姿勢も統合したフルモデルは、優れたスコア0.0625を達成しました。
両方のコンポーネントが不可欠であり、最終的な精度とロバスト性に貢献することを確認しました。

4. 実用性評価

4.1 実装の容易性

π³は比較的実装が容易です。主要な要素は以下の通りです。

必要な要素は以下の通りです。

DINOv2をビジョンエンコーダとして使用
ビュー単位とグローバルのセルフアテンションを交互に適用するTransformerアーキテクチャ
ポイントマップ、カメラ姿勢、信頼度のためのデコーダ

利点は以下の通りです。

順序依存コンポーネントがないため、アーキテクチャがシンプル
参照視点の選択や管理が不要
コードとモデルが公開予定

課題は以下の通りです。

15の異なるデータセットを使用した大規模訓練が必要
相対的な監督とスケール整合の実装が必要

4.2 計算効率

π³は優れた計算効率を示しています。

推論速度は以下の通りです。

KITTIデータセットでの推論速度: 57.4 FPS
比較: DUSt3R (1.25 FPS)、VGGT (43.2 FPS)、Aether (6.14 FPS)
モデルサイズ: 959Mパラメータ（VGGTの1.26Bより小さい）

57.4 FPSの高速処理を実現する要因は以下の通りです。

参照視点の選択や管理が不要
シンプルなアーキテクチャにより57.4 FPSの高速処理を実現
順序同変性による一貫した出力

4.3 応用可能性

π³は幅広い応用が期待できます。

適用可能な分野は以下の通りです。

拡張現実（AR）アプリケーション
ロボティクスの視覚認識とナビゲーション
自動運転の3Dシーン理解
3Dコンテンツ作成と編集
屋内外のマッピングと復元

特に有効なシナリオは以下の通りです。

カメラの順序や視点が不確定な状況
リアルタイム性が求められるアプリケーション
動的シーンと静的シーンの両方の処理
様々な種類の入力（単一画像、動画、順序なし画像集合）

将来の拡張可能性は以下の通りです。

より大きなモデルへのスケーリング
他のモダリティ（LiDARなど）との統合
リアルタイム性能のさらなる向上

5. まとめと所感

5.1 論文の意義

本論文は、視覚幾何復元における長年の慣習であった参照視点への依存を根本的に問い直した点で非常に重要です。

理論的意義は以下の通りです。

参照視点の選択が帰納バイアスを導入し、性能を制限することを初めて体系的に示した
順序同変性という数学的性質を活用したエレガントな解法を提示
実世界カメラパスの低次元構造という洞察を活用

実用的意義は以下の通りです。

複数の重要なタスクでSOTAを達成し、実用性を実証
高速な推論速度（57.4 FPS）と小さいモデルサイズで実用的
入力順序に対するロバスト性により、様々な現実のシナリオに対応可能

学術的影響は以下の通りです。

「学習は常に帰納バイアスを凌駕する」というJonathan T. Barronの言葉を実証
視覚幾何復元における新しい研究方向を開拓
順序同変性の重要性を示し、他の分野への波及効果が期待される

5.2 今後の展望

本研究は多くの発展可能性を秘めています。

技術的改善の方向性は以下の通りです。

より大規模なモデルでのスケーラビリティの検証
さらなる計算効率化とリアルタイム性能の向上
ハイブリッドなセンサー融合への対応

応用範囲の拡大は以下の通りです。

より複雑な動的シーンへの対応
マルチモーダル情報の統合
エンドツーエンドのロボット制御への応用

理論的発展は以下の通りです。

順序同変性の理論的保証の深化
他の数学的対称性の活用
より一般的な幾何学習フレームワークへの発展

限界と課題は以下の通りです。

現在は静的なカメラキャリブレーションを仮定
非常に大きなビュー差やオクルージョンへの対応
トレーニングデータの多様性への依存

π³は、シンプルでエレガントなアイディアによって
複雑な問題を解決した優れた例です。
コンピュータビジョンにおける数学的原理の重要性を再認識させる研究です。