Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

著者
所属
投稿日
カテゴリ
arXiv

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

基本情報

arXiv IDは2510.03230v1です。URLはhttps://arxiv.org/abs/2510.03230です。
著者は7名で構成されています。
Suyuchen Wang、Tianyu Zhang、Ahmed Masry、Christopher Pal、Spandana Gella、Bang Liu、Perouz Taslakianです。
所属機関は複数の研究機関にわたります。
主要な機関はServiceNow、Mila - Quebec AI Institute、Université de Montréal、York Universityです。
その他にPolytechnique Montréal、McGill University、CIFAR AI Chairが含まれます。
投稿日は2025年10月4日です。
カテゴリはcs.CV、cs.AIの2つです。

簡単に説明すると

この論文は、GUIの自動操作において重要な「GUI grounding」という技術を改善する研究です。
GUI groundingとは、「ログインボタンをクリック」のような自然言語の指示を、画面上の具体的な座標位置に変換する技術です。
従来手法では、視覚特徴から座標を直接生成するため不安定で、特に学習時とは異なる解像度の画面では性能が低下していました。
本研究では、RULERトークンとInterleaved MRoPEという2つの技術により、明示的な座標参照システムを導入し、この問題を解決しています。
ScreenSpotベンチマークでの実験により、特に高解像度画面での性能向上が確認されています。

1. 研究概要

1.1 背景と動機

GUI grounding(GUIグラウンディング)は、自然言語指示を画面上の正確なピクセル座標にマッピングするタスクで、自律エージェントにとって重要な技術です。
しかし現在のVision-Language Models(VLM)では、視覚特徴から座標への暗黙的なマッピングに依存しており、これが不安定な学習と解像度汎化の問題を引き起こしています。

従来のアプローチでは、視覚パッチの位置エンベディングから直接座標値をテキストトークンとして生成します。
この方法では、高次元の視覚特徴から具体的な数値への複雑なマッピングを学習する必要があり、学習が不安定になります。
また、特定の解像度で学習されたマッピング関数は、異なる画面サイズでは機能しないという根本的な問題があります。

1.2 主要な貢献

本研究では、暗黙的な座標マッピングから明示的な空間ガイダンスへの転換を提案しています。
具体的な貢献は以下の通りです。

  • 明示的な位置から座標へのマッピングを提供するRULERトークンの導入
  • 空間次元間の周波数バランスを改善するInterleaved MRoPE(I-MRoPE)の開発
  • 不安定な回帰問題を堅牢な参照調整メカニズムに変換する手法の提案
  • ScreenSpotベンチマーク群での包括的な評価と性能向上の実証

特に、RULERトークンは地図のグリッド線のような役割を果たし、モデルが座標を一から生成するのではなく、最も近いRULERトークンを参照して調整するアプローチを可能にします。

2. 提案手法

2.1 手法の概要

提案フレームワークは2つの相補的な革新で構成されます。
第一に、RULERトークンが明示的な座標参照システムを確立します。
これらの補助トークンは、対応する画像パッチと位置エンベディングを共有しながら、ピクセル座標を直接エンコードします。

第二に、Interleaved MRoPE(I-MRoPE)が標準的な位置エンコーディングの周波数不均衡を解決します。
従来のMRoPEでは、空間次元に対して周波数成分が順次割り当てられるため、次元間で表現能力に偏りが生じていました。
I-MRoPEは周波数成分をインターリーブすることで、幅と高さの両次元に等しい表現能力を提供します。

2.2 技術的詳細

RULERトークンは以下のように構築されます。
画像がH×W個のパッチに分割され、各パッチがp×pピクセルをカバーする場合、補助座標トークン系列を入力に追加します。

入力系列は以下のように拡張されます。
x_input = [x_sys, x_RULER, x_vision, x_prompt]。

各RULERトークンr_iは、視覚パッチと同じ空間位置IDを共有し、対応する視覚パッチの初期ピクセル座標を値として持ちます。
位置エンベディングは以下のように定義されます。
PE_RULER(r_i) = R^MRoPE_Θ,t0+i。

計算コスト管理のため、一定間隔でRULERトークンを配置します。
この場合、算術境界は間隔とパッチサイズの積となります。

I-MRoPEでは、周波数インデックスが循環的にマッピングされます。
次元割り当ては以下のようになります。
偶数インデックス:高さ次元
奇数インデックス:幅次元。

2.3 新規性

従来手法との主な違いは、暗黙的マッピングから明示的参照への根本的な転換です。
既存のGUI groundingモデルは座標生成を言語モデリング問題として扱い、視覚特徴から数値トークンへの直接変換に依存していました。

本手法では、座標予測を検索問題に変換し、モデルが最適なRULERトークンを見つけて微調整するアプローチを採用します。
これにより、解像度に依存しない境界付き算術で座標を決定でき、汎化性能が向上します。

3. 実験結果

3.1 実験設定

実験は2つの設定で実施されました。
第一に、LLaVA-NeXTフレームワークでの一から訓練では、SigLIP-SO400M-14@384を視覚エンコーダーとし、Qwen2.5 7B Instructを言語デコーダーとして使用しました。

第二に、既存のQwen2.5-VL 7B Instructモデルの微調整実験では、RULERトークンのみを追加してその効果を検証しました。
すべての実験でUGroundデータセットを使用し、約800万の要素アノテーションで訓練しました。

評価はScreenSpot、ScreenSpot-V2、ScreenSpot-Proの3つのベンチマークで実施されました。
特にScreenSpot-Proは高解像度の専門的デスクトップアプリケーションを含み、解像度の汎化性能に関する厳しいテストとなります。

3.2 主要な結果

ScreenSpot-Proベンチマークにおいて、RULERトークンを追加した微調整により平均精度が31.1%から37.2%に向上しました。
特に高解像度画面での改善が顕著で、RULERの参照メカニズムの有効性が確認されました。

一から訓練した実験では、標準のLLaVA位置エンベディングと比較してMRoPEが一貫した改善を示し、I-MRoPEがさらなる向上をもたらしました。
RULERトークンとI-MRoPEの組み合わせで最も優れた性能を達成しました。

3.3 既存手法との比較

最新のUI grounding専用モデルとの比較では、限られた訓練データにもかかわらず競争力のある結果を示しました。
特に解像度汎化において、従来の暗黙的手法を上回る性能を実現しました。

効率性の観点では、8K画面でも追加トークンは0.2%に過ぎず、計算オーバーヘッドは最小限です。
モバイル画面では最大2.8%のトークン増加に留まり、実用性が確保されています。

4. 実用性評価

4.1 実装の容易性

RULERトークンは既存のVLMアーキテクチャに容易に統合可能です。
入力系列への補助トークン追加という単純な変更で実装でき、大幅なアーキテクチャ変更は不要です。
PyTorchベースの実装が提供されており、標準的な訓練パイプラインで利用できます。

4.2 計算効率

RULERトークンによる計算オーバーヘッドは極めて少なく、8K解像度でも総トークン数の1%未満の増加です。
I-MRoPEは標準MRoPEと同じ計算量で、追加コストなしに性能向上を実現します。
メモリ使用量と推論時間への影響も無視できるレベルです。

4.3 応用可能性

GUI自動操作以外にも、精密な視覚位置特定を要求する様々なタスクに応用可能です。
Webスクレイピング、テスト自動化、アクセシビリティ支援技術など、幅広い分野での活用が期待されます。
異なる解像度とプラットフォーム間での堅牢性により、実世界展開における実用性が高いです。

5. まとめと所感

5.1 論文の意義

本研究は、GUI groundingにおける根本的な問題を特定し、理論的に裏付けられた解決策を提示している点で重要です。
暗黙的マッピングの限界を明確に示し、明示的な空間ガイダンスの有効性を実証しました。
特に解像度汎化という実用的課題への対処は、実世界応用において大きな価値があります。

5.2 今後の展望

適応的トークン配置や動画インターフェースへの拡張など、さらなる改良の余地があります。
明示的空間ガイダンスの成功は、暗黙学習よりも構造化アプローチの優位性を示唆しており、他の視覚位置特定タスクへの応用も期待されます。
より多様なプラットフォームとアプリケーションでの評価により、手法の汎用性をさらに検証することが今後の課題です。