G²VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

著者 Wenbo Hu他9名(Shanghai AI Lab他)
所属 Shanghai AI Lab、UCLA、SJTU、FDU、ZJU、USTC、HKU、CUHK
投稿日 2025年11月29日
カテゴリ cs.CV, cs.AI

G²VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

基本情報

  • arXiv ID: 2511.21688v1 (https://arxiv.org/abs/2511.21688)
  • 著者: Wenbo Hu他9名(Shanghai AI Lab他)
  • 所属: Shanghai AI Lab、UCLA、SJTU、FDU、ZJU、USTC、HKU、CUHK
  • 投稿日: 2025年11月29日
  • カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文は3D空間の理解と推論能力を18.5ポイント改善した新しいVision-Language Model(VLM)を提案しています。
従来のVLMが2D画像を単純に「平坦」なデータとして扱うのに対し、G²VLMは幾何学知覚の専門家と意味論知覚の専門家という2つの専門モジュールを持つアーキテクチャを採用しています。
これにより2D画像から3D幾何学情報を学習し、それを空間推論タスクで活用できます。
プロジェクトページとGitHubリポジトリも公開されています。

1. 研究概要

1.1 背景と動機

現在のVision-Language Models(VLMs)は多様なマルチモーダルタスクで強力な性能を発揮しています。
しかし空間理解において重大な限界を抱えています。
この限界は現在のVLMsが物理世界の知識を獲得する方法に起因しています。
これらのモデルは主に大量の非構造化2D画像-テキストデータセットでの訓練により空間理解を暗黙的に学習しています。
主に言語と2D視覚プライアーに依存しています。
特定の3D-VLMs以外の一般的なVLMsは特徴投影層を使用し自己回帰的な次トークン予測で訓練されます。
そのため複数の画像やビデオフレームを2Dデータの「平坦」なシーケンスとして扱っています。

この問題の核心は、これらの2D知覚を世界の一貫した3D表現として「持ち上げる」明示的な視覚幾何学習の欠如にあります。
真の空間理解には2D画像から3D空間を再構築する視覚幾何学習プロセスが不可欠です。
人間の認知における二流仮説(two-streams hypothesis)からの着想を得て、著者らは物体認識のための「腹側流」と空間位置のための「背側流」の統合を提案しています。

1.2 主要な貢献

本研究の主要な貢献は以下の通りです。

  • 統合型モデルの提案: 空間3D再構築と高レベル空間理解を単一のvision-languageモデルで橋渡しする初の統合型モデルG²VLMを導入した
  • 新規アーキテクチャの開発: 専用の幾何学知覚の専門家と意味論知覚の専門家を持つ新しいアーキテクチャを採用し、共有の自己注意機構を通じて2Dデータから3D幾何学を学習し空間推論を強化することを実現した
  • 優秀な実験結果: 3D再構築モデルに匹敵する性能を達成し、ほとんどの空間推論ベンチマークで最高性能を実現した
  • コミュニティへの貢献: 意味論的に強力なVLMと低レベル3Dビジョンタスクを統合することで、3Dシーン編集などの将来のアプリケーションを解放する強力なベースラインとしてコミュニティ貢献を目指している

2. 提案手法

2.1 手法の概要

G²VLMは人間の認知における二流仮説から着想を得たMixture-of-Transformer-Experts(MoT)アーキテクチャを採用しています。
このアーキテクチャは2つの専門家から構成されます。
1つ目は視覚幾何学習のための幾何学知覚の専門家(「where pathway」)です。
2つ目はマルチモーダル理解のための意味論知覚の専門家(「what pathway」)です。
これらの専門家は共有の自己注意機構を介して相互作用し、これら2つの基本的側面の相互作用により互いを相互改善します。

幾何学知覚の専門家では低レベル視覚情報をLLMに注入するためDINOV2ビジョンエンコーダーを組み込んでいます。
グローバル注意を通じて3D対応特徴を推論します。
意味論知覚の専門家では事前訓練されたVLM(Qwen2-VL-2B)を基盤として構築しています。
動的解像度をネイティブサポートするQwen2ビジョンエンコーダーとMultimodal Rotary Position Embedding(M-RoPE)の設計を採用しています。

2.2 技術的詳細

モデルのアーキテクチャは以下の数学的定式化で表現されます。
入力となるN個のRGB画像I_i ∈ R^{3×H×W}について、幾何学知覚の専門家は各画像をLLM隠れ状態h_i ∈ R^{C×d}にマッピングします。
これらの隠れ状態は3D幾何ヘッドでデコードされ、タスク固有の予測をします。

幾何ヘッド関数は以下のように定義されます:
f((h_i){i=1}^N) = (T_i, X_i){i=1}^N

ここでT_i ∈ SE(3) ⊂ R^{4×4}はカメラポーズ、X_i ∈ R^{H×W×3}は対応するピクセル整列3Dポイントマップで、各々が入力画像I_iに対応しています。

訓練は2段階のプロセスで実行されます。
第1段階では事前訓練されたVLM(例:Qwen2-VL)で初期化された意味論知覚の専門家を凍結します。
幾何学知覚の専門家をスクラッチから大規模3D注釈付きデータセットで訓練して幾何学豊富な表現を学習させます。
第2段階では意味論専門家を凍結解除し幾何学専門家と共同で空間理解データによる訓練を実施します。
これにより学習された幾何学的特徴を統合し空間推論性能をさらに向上させます。

2.3 新規性

本手法の主要な新規性は以下の点にあります。
まず従来の3D-VLMsが明示的な3D入力(深度マップやカメラポーズなど)に依存するのに対し、G²VLMは純粋な2D画像入力から3D幾何学について推論することを学習します。
これにより収集が困難な3Dデータへの依存を排除し、豊富な野生のマルチビュー画像やビデオを活用してフレームワークをスケールすることが可能になります。

さらに既存の空間VLMsの多くが画像を「平坦」な2Dデータとして扱いキュレートされた空間推論データセットに依存するのに対し、G²VLMは3D幾何学専門家をVLM内に直接統合しています。
これは凍結した幾何学エンコーダーを追加表現として統合するVLM-3RやSpatial MLLMといった他の手法とは異なります。
より自然な整合を提供し視覚幾何学の予測タスクと高レベル空間推論を統合しています。

3. 実験結果

3.1 実験設定

実験は視覚幾何学と空間理解・推論の両面で広範囲に実行されました。
視覚幾何学については単眼深度推定、ポイントマップ推定、カメラポーズ推定タスクで評価されました。
深度推定はSintelとNYU-v2データセット、ポイント推定は7-ScenesとETH3Dデータセット、カメラポーズ推定はCo3Dv2データセットを使用しました。

空間理解・推論についてはSPAR-Bench、OmniSpatial、MindCube(空間メンタルモデリング)という包括的なベンチマークで評価されました。
さらにOST-Bench(オンライン時空間シーン理解)でも評価されました。

訓練データとして幾何学知覚の専門家には次のデータセットを使用しました。
ScanNet、Co3Dv2、BlendMVS、DL3DV、MegaDepth、WildRGBD、TarTanAir、Taskonomy、ArkitScenesです。
さらにHyperSim、Habitat、ScanNetPP、GTA-SFM、Matrixcity、Aria Synthetic Environments、Mapfreeも使用しました。
また内部合成屋内データセットも活用しました。
共同訓練段階ではSPAR-7M、Omnispatial、Mindcube、OST-Benchの訓練セット、さらにLLaVA-One-Visionなどの一般的なVQAデータセットを使用しました。

3.2 主要な結果

視覚幾何学タスクでG²VLMはSOTA feed-forward 3D再構築手法と匹敵する性能を達成しました。
特にSintelベンチマークでの単眼深度推定でVGGTの0.335から0.297へとAbsolute Relative Errorを11.3%改善しました。
ポイントマップ推定とカメラポーズ推定でも競争力のある結果を示しています。
より簡素な注意機構を使用しているにも関わらずVGGTと同等の性能を達成しました。

空間推論タスクではG²VLM-SRがすべての既存研究の中で最良の結果を達成しました。
SPAR-BenchでGPT-4oを18.5ポイント上回りました。
4つの空間推論ベンチマークすべてで相対的に小さな2Bサイズにも関わらずはるかに大きなモデルと比較してより良いまたは同等の結果を達成しました。

3.3 既存手法との比較

プロプライエタリモデルとの比較では次の大規模モデルに対してG²VLM-SRが一貫して優秀な性能を示しました。
GPT-4o、Claude-3.7-Sonnet、Claude-4-Sonnet-20250514です。
オープンソースモデルとの比較でもLLaVA-OneVision-7B、Qwen2.5-VL-72Bといった大規模モデルに対して競争力のある結果を達成しました。

特に注目すべきは空間専門モデルとの比較です。
SpaceMantis-13B、Spatial-MLLM-7B、SpaceQwen2.5-VL-3B、VLM3R-7Bといった専門化されたモデルに対してG²VLM-SRが最良の結果を達成しました。
これは統合アプローチの有効性を強く示しています。

4. 実用性評価

4.1 実装の容易性

G²VLMの実装は比較的容易です。
既存の事前訓練VLM(Qwen2-VL)を基盤として構築されています。
オフザシェルフの事前訓練VLMと直接統合可能でより強力なVLMsとも容易に統合できる設計となっています。
カメラトークン設計を排除し置換等価設計を採用することでモデルをさらにスケーラブルにしています。
特別なプライアーなしでDINOV2と意味論Qwen2ビジョンエンコーダーからの視覚特徴をLLMが直接利用できます。

訓練における実装詳細も明確に記述されています。
低解像度の事前訓練は32台のA800 GPUで7日間、高解像度訓練は64台のA800 GPUで3日間、共同訓練は64台のA800 GPUで3日間という具体的なリソース要件が示されています。

4.2 計算効率

計算効率の面ではモデルサイズが2Bと比較的小さいにも関わらず大規模モデルと競争力のある性能を達成している点が注目されます。
ただし論文では大規模モデルでの訓練不安定性が潜在的な限界として言及されています。
高度な最適化技術、慎重なデータキュレーション、重要な計算リソースが必要となります。

訓練中はgradient norm clippingを閾値1.0で適用しています。
bfloat16精度とgradient checkpointingを活用してGPUメモリと計算効率を改善しています。
これらの工夫により実用的な計算リソース内でのモデル訓練が可能となっています。

4.3 応用可能性

G²VLMの応用可能性は非常に幅広いです。
空間理解と3D再構築の統合により3Dシーン編集、ロボティクス、embodied AIシステムなど多様な分野での活用が期待されます。
特に純粋な2D画像から3D幾何学を学習する能力は野生のマルチビュー画像やビデオデータを活用可能にし大規模なスケーラビリティを提供します。

モデルの設計は汎用性に優れておりコミュニティの強力なベースラインとして機能します。
意味論的空間タスクの将来の機会を解放することが期待されます。
高レベルと低レベルの両方のアプリケーションにまたがる応用が可能であり空間インテリジェンス分野の発展に大きく貢献すると考えられます。

5. まとめと所感

5.1 論文の意義

この論文はVision-Language Modelsでの空間理解の根本的な課題に対して人間の認知科学に基づく革新的なアプローチを提案しています。
従来のVLMsが2D画像を平坦なデータとして扱う限界を克服しています。
3D幾何学習と空間推論を統合した初の本格的な試みとして極めて重要な意義を持ちます。

特に明示的な3D入力なしに純粋な2D画像から3D幾何学を学習する能力は現実世界のアプリケーションで大きなブレークスルーとなります。
幾何学知覚の専門家と意味論知覚の専門家の相互作用により従来の空間推論能力を18.5%向上させています。
GPT-4oなどの大規模プロプライエタリモデルを上回る性能を比較的小さなモデルサイズで達成した点は特筆に値します。

5.2 今後の展望

今後の発展としてまずモデルのスケーリングが重要な方向性となります。
著者らも言及しているようにオンライン時空間シーン理解のような高度なタスクではより大きなアーキテクチャが有利です。
G²VLMのスケーリングは将来の有望な方向性です。
また大規模モデルでの訓練安定性の改善も重要な課題として残されています。

技術的な発展として3Dシーン編集などのより高度なアプリケーションへの拡張が期待されます。
リアルタイム推論の実現、さらに最適化された訓練手法の開発などが期待されます。
また他のモダリティ(音声、触覚など)との統合により、より包括的な空間インテリジェンスシステムの構築も考えられます。

コミュニティへの影響として本研究が提示した統合アプローチは空間AI分野で新たな研究の方向性を示しています。
多くのフォローアップ研究を触発することが予想されます。
オープンソース化により研究コミュニティ全体の発展に大きく貢献することが期待されます。