Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

著者 Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
所属 SenseTime Research, S-Lab Nanyang Technological University
投稿日 2025年8月19日
カテゴリ cs.AI, cs.CL

Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

基本情報

  • arXiv ID: 2508.13142v1 (https://arxiv.org/abs/2508.13142)
  • 著者: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
  • 所属: SenseTime Research, S-Lab Nanyang Technological University
  • 投稿日: 2025年8月19日
  • カテゴリ: cs.AI, cs.CL

簡単に説明すると

この論文は、最新の大規模マルチモーダル言語モデルGPT-5の空間知能(Spatial Intelligence)を包括的に評価した研究である。
空間知能は人工知能が物理世界で動作するために不可欠な能力であるが、現在のマルチモーダルモデルの重要な課題となっている。
研究では、空間知能を6つの基本能力(計量測定、心的再構成、空間関係、視点取得、変形・組立、包括的推論)に分類し、
8つの主要ベンチマークでGPT-5を含む最先端モデルを評価した。総評価コストは10億トークンを超える大規模実験である。
結果として、GPT-5は空間知能で新たな最先端性能を達成したが、依然として人間の性能には届いておらず、
特に心的再構成、視点取得、変形・組立、包括的推論の分野で大きな課題が残ることが判明した。

1. 研究概要

1.1 背景と動機

空間理解と推論は人工知能における重要でありながら十分に探求されていない分野である。
身体化エージェントが物理世界で完全に動作し、適応し、相互作用するためには空間知能が不可欠である。
しかし、最先端のマルチモーダル大規模言語モデル(MLLM)でも、人間にとって簡単な空間タスクで失敗することが多い。

最近のGPT-5のリリースに伴い、コミュニティは自然にその空間知能での性能に関心を寄せている。
既存の空間知能ベンチマークの多くが過去3か月以内にリリースされており、この分野への研究関心の高まりを示している。
各ベンチマークは異なる側面に焦点を当て、独自の分類法を採用しているため、統一された評価フレームワークが必要とされていた。

研究の動機は、「GPT-5(または他の最先端モデル)は空間知能を達成したか?」という根本的な問いに答えることである。
空間知能は、AGI(汎用人工知能)達成において最後の未開拓領域の一つと考えられており、
主流のベンチマークで測定されるマルチモーダル能力とは根本的に異なる技能である。

1.2 主要な貢献

本研究の主要な貢献は以下の通りである。

  • 空間知能の統一分類法の提案: 既存の8つの主要ベンチマークを統合する6つの基本能力(計量測定、心的再構成、空間関係、視点取得、変形・組立、包括的推論)を定義し、各ベンチマークのサブカテゴリを適切に分類した。

  • 包括的評価プロトコルの確立: プロンプト、評価戦略、メトリクスを標準化し、ベンチマーク間での公平な比較を可能にした。具体的には、ゼロショットChain-of-Thought アプローチの採用、3段階の回答マッチング手法、Chance-Adjusted Accuracy (CAA)とMean Relative Accuracy (MRA)メトリクスの使用を標準化した。

  • 大規模実証評価の実施: 8つの主要ベンチマーク(VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition、SpatialViz)でGPT-5を含む最先端モデルを評価し、総計約31K画像、4.5K動画、24K QAペアを処理した。

  • 詳細な性能分析と洞察: GPT-5が空間知能で新たな最先端を達成したが、依然として人間レベルには到達していないことを定量的に示し、特に困難な空間タスクではプロプライエタリモデルとオープンソースモデルの差が縮小することを発見した。

  • 質的評価とケーススタディ: ベンチマークからの注目すべき失敗例と実世界の事例を用いた詳細な分析を実施し、各空間能力における具体的な強みと限界を明らかにした。

2. 提案手法

2.1 手法の概要

本研究は評価研究であり、新しいアルゴリズムやモデルを提案するものではない。
代わりに、空間知能評価のための包括的なフレームワークと標準化された評価プロトコルを確立している。

研究手法の核心は、既存の空間知能ベンチマークを統一的に分析し、6つの基本能力に体系化することである。
この分類は、空間認知研究、コンピュータビジョン、ロボティクスの知見を統合して構築されている。

評価フレームワークは以下の要素で構成される。
まず、メトリクスの標準化では、多肢選択問題にはChance-Adjusted Accuracy (CAA)を、数値回答問題にはMean Relative Accuracy (MRA)を採用した。
次に、システムプロンプトの統一では、空間推論能力を最大化するためゼロショットChain-of-Thoughtアプローチを採用し、回答テンプレートを標準化した。
さらに、回答マッチング手法の標準化では、3段階のマッチングプロセス(ルールベース初期マッチング、拡張ルールベースマッチング、LLM支援抽出)を確立した。

2.2 技術的詳細

6つの基本能力の定義:

計量測定(Metric Measurement, MM)は、2D観察から3D寸法(距離、長さなど)を推論する能力である。
カメラ内在パラメータなどの追加情報なしには本質的に曖昧であるため、物理的スケールと典型的オブジェクトサイズの理解が反映される。

心的再構成(Mental Reconstruction, MR)は、限られた視点から物体の完全な3D構造を推論し、
仮想的操作を行う能力である。単視点3D物体再構成などの研究分野と密接に関連している。

空間関係(Spatial Relations, SR)は、カメラビュー内の複数オブジェクトの相対位置と方向の理解である。
MMとMRの能力の上に構築され、仮想座標系の概念化と適用を含む。

視点取得(Perspective-taking, PT)は、異なる視点間での推論能力である。
心的3D表現構築、シーンレベルでの複数オブジェクト推論、カメラ視点変化下での明示的推論の3要素を含む。

変形・組立(Deformation and Assembly, DA)は、形状一貫性を超えた構造変化の理解と推論である。
結び目作り、箱の展開図解釈、部品組立などが含まれ、身体化AIにおける操作に不可欠である。

包括的推論(Comprehensive Reasoning, CR)は、様々な空間能力を拡張記憶と多段階推論と組み合わせて協調使用する能力である。

評価プロトコルの詳細:

メトリクス計算では、多肢選択問題でのランダム推測効果を排除するため、SITE論文で提案されたChance-Adjusted Accuracy (CAA)を採用した。
CAA = (正解率 - 1/k) / (1 - 1/k)、ここでkは選択肢数である。

システムプロンプトは、OmniSpatialのゼロショットCoTアプローチとSpatialVizの回答テンプレートを組み合わせて標準化した。
これにより、モデルの空間推論能力を最大化し、回答抽出の精度を向上させている。

循環評価戦略では、選択肢位置バイアスを軽減するため、k個の選択肢を持つ問題をk回提示し、
各回で選択肢をローテーションする手法を採用した。ソフト循環スコアリングと
ハード循環スコアリングの2つの変種を実装している。

2.3 新規性

本研究の新規性は以下の点にある。

統一評価フレームワークの確立: 異なる分類法を持つ8つの主要ベンチマークを、
6つの基本能力という統一フレームワークで体系化したことは、空間知能研究における重要な標準化である。
これにより、異なるベンチマーク間での比較と相互理解が可能になった。

標準化された評価プロトコル: 従来の研究では、メトリクス、プロンプト、回答マッチング手法、
評価戦略の違いにより公平な比較が困難であった。本研究では、これらすべてを標準化し、
再現可能で一貫した評価を可能にした。

大規模かつ包括的な評価: 10億トークンを超える評価コストをかけて、
GPT-5を含む最先端モデルを包括的に評価した研究は前例がない。
この規模での体系的評価により、空間知能の現状を正確に把握できた。

空間知能の限界の定量化: GPT-5が最先端性能を達成しながらも、
依然として人間レベルに到達していないことを定量的に示し、
特に困難なタスクでプロプライエタリモデルの優位性が失われることを発見した。

実用的なベンチマーク分析: 各ベンチマークの特性、評価の課題、
適切な使用方法について詳細な分析を提供し、研究者が適切なベンチマークを選択できるガイドラインを確立した。

3. 実験結果

3.1 実験設定

実験では8つの主要な空間知能ベンチマークを使用した。
VSI-Bench(絶対距離、オブジェクト・部屋サイズなど)、SITE(多様な空間推論タスク)、
MMSI(包括的で高難度)、OmniSpatial(広範囲な空間タスク)、MindCube(21K問題の大規模ベンチマーク、バランス調整のためMindCube-Tinyを使用)、
STARE(空間推論評価)、CoreCognition(認知能力評価)、SpatialViz(視覚化タスク)である。

評価対象モデルは、プロプライエタリモデル(GPT-5各種、Gemini-2.5-pro)と
オープンソースモデル(InternVL3など)を含む最先端モデルである。
全ベンチマークで約31K画像、4.5K動画、24K QAペアを処理し、総評価コストは10億トークンを超えた。

評価プロトコルでは、公平な比較のため統一されたシステムプロンプト、
メトリクス(CAA、MRA)、3段階回答マッチング手法を採用した。
一部のベンチマークでは選択肢位置バイアス軽減のため循環評価も実施した。

3.2 主要な結果

GPT-5は空間知能で新たな最先端を達成した。
プロプライエタリモデルとオープンソースモデルの両方に対して説得力のある差で勝利し、
SITE、MindCube、STAREの大多数のサブカテゴリで明確な優位性を示した。
一部のケースでは人間レベルの性能に到達し、特にVSI-BenchのMM(計量測定)タスクや
SITEとCoreCognitionのSR(空間関係)タスクで顕著であった。

しかし、GPT-5はまだ空間知能を達成していない。
いくつかの基本能力で人間レベルに達していない。特に心的再構成(8ベンチマーク中3つ)、
視点取得(8ベンチマーク中6つ)、包括的推論(8ベンチマーク中3つ)、
SpatialVizの変形・組立で顕著なギャップが残っている。

空間知能タスクは非空間知能タスクより困難である。
MMSIでは、GPT-5でも人間レベルから程遠い性能に留まっている。
OmniSpatial、STARE、CoreCognition、SpatialVizでは、
空間知能タスクで最良モデルと人間の性能差が非空間知能タスクより一貫して大きい。

興味深いことに、プロプライエタリモデルは困難な空間知能タスクで
オープンソースモデルに対する決定的優位性を持たない。
特に心的再構成、視点取得、変形・組立、包括的推論の最困難カテゴリで顕著である。
MMSI、OmniSpatial、STARE、SpatialVizでは、
プロプライエタリとオープンソースモデルの性能が類似し、両者とも人間レベルから程遠い。

3.3 既存手法との比較

従来の評価研究との比較において、本研究の優位性が明確である。

評価規模と包括性: 従来研究は通常1-3個のベンチマークに限定されていたが、
本研究は8つの主要ベンチマークを包括的に評価した。
10億トークンを超える評価コストは前例のない規模である。

評価プロトコルの標準化: 従来研究では各ベンチマークが独自のメトリクス、
プロンプト、評価戦略を採用しており、比較が困難であった。
本研究は初めて標準化されたプロトコルを確立し、公平な比較を可能にした。

統一分類フレームワーク: 従来は各ベンチマークが独自の分類法を採用していたが、
本研究は6つの基本能力による統一フレームワークを提案し、
分野全体の理解を向上させた。

最新モデルの評価: GPT-5の空間知能に関する初の包括的評価であり、
他の最先端モデルとの詳細な比較を提供した。

実用的洞察の提供: 単なる性能報告を超えて、各空間能力の特性、
評価の課題、今後の研究方向について実用的な洞察を提供した。

4. 実用性評価

4.1 実装の容易性

本研究の評価フレームワークは実装が比較的容易で、研究コミュニティでの採用に適している。

評価プロトコルの標準化により、新しいモデルやベンチマークでの評価が
一貫した方法で実施できる。統一されたシステムプロンプト、メトリクス、
回答マッチング手法は、実装コストを大幅に削減する。

公開されたコードとデータセットにより、研究者は容易に追試や拡張研究を実施できる。
6つの基本能力による分類フレームワークは、新しいベンチマークの開発や
既存ベンチマークの分析にも適用可能である。

ただし、包括的評価には相当な計算資源が必要である。
8つのベンチマークでの完全評価は10億トークンを超えるコストを要し、
特にGPT-5のような高コストモデルでは実用的な制約となる。

4.2 計算効率

評価の計算効率は重要な考慮事項である。

標準評価(非循環)では、約31K画像、4.5K動画、24K QAペアの処理が必要で、
GPT-5での評価コストは数万ドルに達する可能性がある。
循環評価を採用する場合、コストは選択肢数倍に増加する。

効率的な評価のため、研究では代表的なベンチマークのサブセットでの評価や、
MindCube-Tinyのようなバランス調整されたサブセットの使用を推奨している。
また、標準評価を主体とし、循環評価は限定的に使用する戦略を採用した。

オープンソースモデルでの評価は、プロプライエタリモデルより大幅に低コストで実施可能である。
特に困難なタスクでの性能差が小さいことを考慮すると、
初期評価ではオープンソースモデルを使用し、
有望な結果を得た場合にプロプライエタリモデルで検証する戦略が効率的である。

4.3 応用可能性

本研究の成果は幅広い応用分野での活用が期待される。

ロボティクス分野では、身体化エージェントの空間認識能力評価に直接応用できる。
6つの基本能力は、ナビゲーション、操作、物体認識などの具体的タスクに対応している。
特に、視点取得能力は自律運転やドローン制御、
変形・組立能力は製造業ロボットの評価に重要である。

拡張現実(AR)・仮想現実(VR)分野では、空間理解能力の評価フレームワークとして活用できる。
心的再構成や空間関係の能力は、ARアプリケーションでの
オブジェクト配置や空間インタラクションの質向上に寄与する。

医療分野では、医療画像解析や手術支援システムでの空間認識能力評価に応用可能である。
特に、3D医療画像からの構造理解や手術計画支援での活用が期待される。

教育分野では、学習者の空間認知能力評価や空間知能教育システムの開発に活用できる。
6つの基本能力は、空間認知の発達段階を評価する指標として有用である。

研究開発分野では、新しいマルチモーダルモデルの空間知能評価の標準として
確立される可能性が高い。統一フレームワークにより、
異なる研究グループ間での比較と協力が促進される。

5. まとめと所感

5.1 論文の意義

本研究は空間知能研究分野において極めて重要な貢献をした。
その意義は複数の観点から評価できる。

学術的貢献として、初めて空間知能ベンチマークの包括的統合を実現し、
6つの基本能力による統一分類フレームワークを確立した。
これまで分散していた研究領域を体系化し、分野全体の理解を大幅に向上させた。
また、標準化された評価プロトコルの確立により、
今後の研究での公平な比較と再現性が保証された。

実証的価値として、GPT-5を含む最先端モデルの空間知能を
前例のない規模で定量的に評価した。10億トークンを超える評価により、
現在のAI技術の到達点と限界を正確に把握できた。
特に、プロプライエタリモデルとオープンソースモデルの
困難タスクでの性能差縮小は重要な発見である。

方法論的革新として、循環評価、CAA/MRAメトリクス、
3段階回答マッチングなど、空間知能評価に特化した手法を体系化した。
これらの手法は今後の研究での標準となる可能性が高い。

産業的インパクトとして、ロボティクス、AR/VR、自律運転などの
応用分野でのベンチマーク標準を提供した。
企業の技術開発において、空間知能能力の客観的評価指標として活用される。

5.2 今後の展望

本研究の成果を基盤として、以下の発展方向が期待される。

技術的発展として、特定の空間能力向上に特化したモデル開発が加速される。
心的再構成、視点取得、包括的推論などの困難領域で
専用アーキテクチャやトレーニング手法の研究が進む。
また、マルチモーダル学習での空間情報統合手法の改善、
3D表現学習と2D理解の架橋技術の発展が期待される。

ベンチマーク拡張として、動的環境での空間推論、
時系列空間データの理解、リアルタイム空間認識などの
新しい評価次元が追加される。また、文化的・言語的多様性を考慮した
国際的ベンチマークの開発も重要である。

応用展開として、具体的な産業応用での空間知能評価標準が確立される。
製造業、建設業、医療など、各分野特有の空間タスクに
特化したベンチマークが開発される。

研究方法論として、人間の空間認知メカニズムとAIモデルの比較研究、
発達心理学知見の空間知能AI開発への応用、
神経科学的知見に基づくモデル改善が進展する。

社会的課題として、空間知能の倫理的・安全性考慮、
プライバシー保護と空間データ利用のバランス、
空間知能格差による社会的不平等の防止などの
重要な研究課題が浮上している。

長期的展望として、真の空間知能を持つAGIシステムの実現に向けて、
本研究で明らかになった課題の解決が不可欠である。
特に、人間レベルの空間認知能力を持つAIシステムの開発は、
身体化AI、汎用ロボット、高度自律システムの実現に直結している。