GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding

著者 Fei Tang、Zhangxuan Gu、Zhengxi Lu、Xuyang Liu他8名

所属 Zhejiang University, Ant Group

投稿日 2025年07月22日

カテゴリ cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

arXiv 2507.15846v1 ↗

GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding

基本情報

arXiv ID: 2507.15846v1 (https://arxiv.org/abs/2507.15846)
著者: Fei Tang、Zhangxuan Gu、Zhengxi Lu、Xuyang Liu他8名
所属: Zhejiang University, Ant Group
投稿日: 2025年07月22日
カテゴリ: cs.CV、cs.AI、cs.HC、cs.LG、cs.RO

簡単に説明すると

この論文は、GUI上で自然言語の指示を正確なピクセル座標にマッピングする「GUIグラウンディング」タスクを扱っています。従来のバイナリ報酬（成功/失敗）の代わりに連続的なガウス分布を用いた新しい報酬モデリング手法を提案しています。人間のクリック行動が自然にガウス分布に従うという観察に基づき、学習効率を最大24.7%向上させました。プロジェクトページとGitHubが公開されています。プロジェクトページ: https://zju-real.github.io/GUI-G2 、GitHub: https://github.com/zju-real/GUI-G2

1. 研究概要

1.1 背景と動機

GUIグラウンディングは、自然言語の指示（例：「検索ボタンをクリック」）を画面上の正確な座標に変換する基本的なタスクです。従来の強化学習アプローチでは、予測座標がターゲット要素内にあれば報酬1、外にあれば報酬0というバイナリ報酬を使用していました。しかし、このアプローチには次のような問題があります。

境界の1ピクセル外の予測も完全な失敗と同じ扱いになる
学習初期に勾配情報が得られにくく、収束速度が遅い
人間のクリック行動の連続的な性質を無視している

AITWデータセットの分析により、人間のクリックは自然にターゲット要素の中心を中心としたガウス分布（μ=0.111、σ=0.429）を形成することが判明しました。

1.2 主要な貢献

GUI要素を連続的なガウス分布としてモデル化する新しい報酬フレームワーク（GUI-G$^2$）の提案
精密な位置特定のためのガウスポイント報酬と空間的カバレッジのためのガウスカバレッジ報酬の二重構成
要素サイズに応じて報酬分布を調整する適応的分散メカニズムの開発
3つのベンチマークで大幅な性能向上を達成（最大24.7%の改善）

2. 提案手法

2.1 手法の概要

GUI-G$^2$は、GUI要素を2次元ガウス分布として表現します。この分布は次の2つの報酬コンポーネントで構成されます。

ガウスポイント報酬。予測された中心点がターゲット要素の中心からどれだけ離れているかを評価
ガウスカバレッジ報酬：予測とターゲットのガウス分布の空間的重なりを評価

2.2 技術的詳細

ガウス表現：
各GUI要素は以下の2次元ガウス分布で表現されます。

平均μ = (cx, cy)：要素の幾何学的中心。
共分散行列Σ：対角行列（x,y方向の独立性を仮定）

ガウスポイント報酬。

R_point = exp(-1/2 * [(cx^p - cx^gt)²/σx² + (cy^p - cy^gt)²/σy²])

ガウスカバレッジ報酬：
Bhattacharyya係数を使用して分布の重なりを測定します。

R_coverage = BC(N_p, N_gt)

適応的分散メカニズム。

σx = α × (x2 - x1)
σy = α × (y2 - y1)

ここで、αは要素サイズの影響を制御するスケーリングファクター（最適値：0.5）です。

最終報酬。

R_total = ν × R_point + γ × R_coverage

実験では、ν=1.0、γ=1.0の均等な重み付けが最適でした。

2.3 新規性

バイナリ報酬から連続的なガウス報酬への根本的な変革
GUI要素の2次元的な性質を明示的にモデル化（点ではなく領域として扱う）
要素サイズに応じた適応的な報酬スケーリング
人間のクリック行動の統計的性質に基づいた理論的基盤

3. 実験結果

3.1 実験設定

実装の詳細は次のとおりです。

ベースモデル：Qwen2.5-VL-7B-Instruct
学習フレームワーク：VLM-R1内でGroup Relative Policy Optimization (GRPO)を使用
ハードウェア：8台のNVIDIA A100-80G GPU
学習率：1e-6、バッチサイズ：8

評価に使用したデータセットは次のとおりです。

ScreenSpot：一般的なGUIグラウンディング
ScreenSpot-v2：より多様なインターフェース
ScreenSpot-Pro：高解像度プロフェッショナルソフトウェア

3.2 主要な結果

ベンチマークでの性能は次のとおりです。

ScreenSpot：92.0%（既存最高性能を4.1%上回る）
ScreenSpot-v2：93.3%（既存最高性能を3.3%上回る）
ScreenSpot-Pro：47.5%（UI-TARS-72Bを9.4%上回る）

特筆すべきは、GUI-G$^2$-7Bが72Bパラメータのモデルを10分の1のパラメータ数で上回ったことです。

3.3 既存手法との比較

バイナリ報酬との比較結果は次のとおりです。

スパース報酬（Point、IoU、Point+IoU）と比較
GUI-G$^2$は93.3%の精度を達成し、最良のスパースベースライン（Point：87.4%）を5.9%上回る
連続報酬は単調な収束を示し、スパース報酬は不安定な振動を示す

距離ベース報酬との比較結果は次のとおりです。

SE-GUI-7B（正規化ユークリッド距離使用）と比較
GUI-G$^2$がScreenSpotで3.8%、ScreenSpot-v2で3.0%上回る

4. 実用性評価

4.1 実装の容易性

既存の強化学習フレームワークに容易に統合可能
報酬計算は高速な閉形式解を持つ
コードとモデルが公開されており、再現性が高い

4.2 計算効率

7Bパラメータモデルで72Bモデルを上回る性能
推論時は決定論的生成（温度0）で高速
学習は8GPU環境において1エポックで完了

4.3 応用可能性

モバイル、デスクトップ、ウェブなど多様なプラットフォームに対応
高解像度プロフェッショナルソフトウェアでも有効
他のVLMベースモデルへの転用が容易

5. まとめと所感

5.1 論文の意義

この研究は、GUIグラウンディングにおける報酬設計の根本的な再考を提示しています。人間の行動パターンに基づいた連続的なモデリングにより、従来比最大24.7%の性能向上を達成しました。特に興味深いのは、明示的な推論（thinking）がGUIグラウンディングのパフォーマンスを実際に害する（93.3%→88.7%）という発見です。これは、GUIグラウンディングが本質的に知覚的タスクであり、段階的な分析よりも即座の視覚的パターン認識に依存することを示唆しています。

5.2 今後の展望

3次元インターフェース（VR/AR）への拡張の可能性
マルチモーダル入力（音声、ジェスチャー）との統合
より複雑なインタラクション（ドラッグ、スワイプ）への適用
リアルタイム適応メカニズムの開発による個人化されたインタラクションモデルの実現