ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
基本情報
- arXiv ID: 2509.15221v1 (https://arxiv.org/abs/2509.15221)
- 著者: Zhaoyang Liu, Jingjing Xie, Zichen Ding他(Shanghai AI Laboratory)
- 所属: Shanghai AI Laboratory
- 投稿日: 2025年09月24日
- カテゴリ: cs.AI, cs.LG
簡単に説明すると
コンピュータ使用エージェント(Computer Use Agents)をクロスプラットフォームでスケールするための研究です。
Windows、macOS、Linux、Android、iOS、Webの6つのプラットフォームで動作する統一されたGUIエージェントを開発しました。
自動エージェントと人間専門家を組み合わせたデータパイプラインで大規模データセットを構築しています。
複数のベンチマークで最新の性能を達成しています。
コード、データ、モデルをオープンソースで公開しています: https://github.com/OpenGVLab/ScaleCUA
1. 研究概要
1.1 背景と動機
Vision-Language Models(VLM)の進歩により、GUIを自動操作するコンピュータ使用エージェント(CUA)の開発が注目されています。
しかし、現在の高性能エージェントはクローズドソースモデルやアクセス不可能なプロプライエタリデータセットに依存しています。
効果的なコンピュータ使用にはソフトウェアや操作手順に関する豊富なドメイン知識が必要です。
インターネット上で容易に入手できる画像-テキストペアとは異なり、
コンピュータ使用データ(特に操作トラジェクトリ)は希少で、収集コストが高く、アノテーションが高価です。
さらに、ソフトウェア、ウェブページ、オペレーティングシステムの急速な進化により、既存のトラジェクトリは逆化のリスクに直面しています。
1.2 主要な貢献
この研究ではコンピュータ使用エージェントのスケールを目指して2つの主要な取り組みを行いました。
第一に、大規模クロスプラットフォームGUI中心のトレーニングコーパスを構築しました。
システムは2つの相互作用ループで構成されています。
Agent-Environment Interaction Loopでは自動エージェントが多様なGUI環境と相互作用します。
Agent-Human Hybrid Data Acquisition Loopでは人間専門家の軸跡を統合してカバレッジと品質を確保します。
第二に、汎用的なコンピュータ使用エージェント用のスケーラブルで多機能なファウンデーションモデルファミリーを開発しました。
ScaleCUAモデルは3つの異なる推論パラダイムをサポートします。
Grounding ModeではUI要素の精密な位置特定を行います。
Direct Action Modeでは中間推論なしの直接的なアクション生成をします。
Reasoned Action Modeでは現在の観察と履歴コンテキストに基づいた推論プロセスを提供します。
第三に、包括的な評価を実施しました。
モデルはMMBench-GUI L1-Hardで94.4%、OSWorld-Gで60.6%、WebArena-Lite-v2で47.4%という最新の性能を達成しました。
ベースラインと比較してWebArena-Lite-v2で+26.6、ScreenSpot-Proで+10.7の大幅な改善を達成しました。
2. 提案手法
2.1 手法の概要
ScaleCUAのコアはクロスプラットフォームインタラクティブデータパイプラインです。
このパイプラインは自動エージェントと人間専門家を戦略的に統合してデータ収集をします。
Windows、macOS、Linux、Android、iOS、Webの6つの主要プラットフォームで統一インターフェースを確立し、
観察取得とアクション実行を標準化しました。
デスクトップ環境ではAccessibility Trees、
WebプラットフォームではDOM構造、
AndroidアプリケーションではXMLレイアウトファイルを使用してGUIメタデータを抽出します。
2.2 技術的詳細
統一アクションスペース:
3つの主要環境(Desktop、Browser、Mobile)をカバーするクロスプラットフォームアクションスペースを確立しました。
コアサブセットの統一操作(click、write等)とプラットフォーム固有のアクション(long_press、open_app等)を含んでいます。
データキュレーション:
収集されたデータは3つの主要タスクファミリーに分類されます。
- GUI Understanding: 471K例の地域キャプション、OCR、レイアウト理解
- GUI Grounding: 17.1MトレーニングサンプルでUI要素の正確な位置特定をサポート
- Task Completion: 15K以上の弱セマンティックトラジェクトリと4Kの高レベル目標指向トラジェクトリ
モデルアーキテクチャ:
ScaleCUAはQwen2.5-VLをベースとしたモデルファミリーで、知覚、推論、アクションを単一モデルに統合しています。
3つの異なる推論パラダイムをサポートし、様々なエージェントフレームワークとの互換性を提供します。
2.3 新規性
既存のGUIエージェントと比較して、ScaleCUAの主な新規性は以下の通りです。
- 大規模クロスプラットフォームデータセット: 6つの主要プラットフォームを網羅した初の統一データセット
- ハイブリッドデータ収集: 自動エージェントと人間専門家を組み合わせた効率的データ収集手法
- 統一アクションスペース: 異幸なプラットフォーム間で一貫した動作モデリングを可能にする標準化されたインターフェース
- 柔軟な推論パラダイム: 異なるユースケースやエージェントフレームワークに対応する3つの推論モード
3. 実験結果
3.1 実験設定
評価は理解、グラウンディング、エンドツーエンドタスク完了にわたる包括的なベンチマークで実施されました。
使用されたベンチマークには以下が含まれます。
- GUI理解(MMBench-GUI L1-Hard、外観・UI要素の理解タスク)
- GUIグラウンディング(ScreenSpot-Pro、UI要素の精密な位置特定)
- タスク完了(OSWorld-G、WebArena-Lite-v2、WindowsAgentArenaなどの総合的タスク)
実験ではモジュラーエージェントワークフローとネイティブモデルの系統的比較も実施されました。
3.2 主要な結果
ScaleCUAは複数のベンチマークで優れた性能を示しました。
GUI理解タスクでは次の結果を達成しました。
- MMBench-GUI L1-Hard: 94.4%(最新性能)
GUIグラウンディングでは次の結果を達成しました。
- ScreenSpot-Pro: ベースラインから+10.7の大幅改善
タスク完了では次の結果を達成しました。
- OSWorld-G: 60.6%(最新性能)
- WebArena-Lite-v2: 47.4%(ベースラインから+26.6の大幅改善)
これらの結果はデータドリブンスケーリングが汎用的なクロスプラットフォームコンピュータ使用エージェントにとって効果的であることを示しています。
3.3 既存手法との比較
研究では異なるデータソース、多様なトレーニングタスク、エージェント設計がScaleCUAの性能に与える影響を調査する幅広い実証研究を実施しました。
データ拡張の有効性: データ拡張、弱セマンティックトラジェクトリ、一般推論データが計画能力の向上に有効であることが示されました。
エージェントパラダイムの比較: モジュラーエージェントワークフローとネイティブモデルの系統的比較により、性能、レイテンシ、トークン消費のトレードオフが明らかになりました。
ネイティブエージェントは知覚とアクションのより緊密な結合を提供し、
モジュラーエージェントやエージェントワークフローもネイティブエージェントの改善から恩恵を受けることが示されました。
4. 実用性評価
4.1 実装の容易性
ScaleCUAは高い実装の容易性を提供します。
オープンソースモデルであり、コード、データ、モデルすべてがGitHubで公開されています。
統一アクションスペースとクロスプラットフォームインターフェースにより、
既存のエージェントフレームワークへの統合が容易です。
4.2 計算効率
ScaleCUAは異なる推論パラダイムを提供することで計算効率と性能のバランスを最適化できます。
Direct Action Modeは中間推論ステップを省略して高速なタスク完了を可能にし、
Reasoned Action Modeは推論プロセスを含むことで計画精度を向上させます。
ユースケースに応じて最適なモードを選択できます。
4.3 応用可能性
ScaleCUAの応用可能性は非常に幅広いです。
産業応用では、オフィス作業の自動化、カスタマーサポート、テスト自動化への活用が期待されます。
研究開発では、GUIエージェントの基盤モデルやマルチモーダルAI研究への貢献が期待されます。
教育では、コンピュータリテラシーの教育やアクセシビリティ支援への活用が期待されます。
クロスプラットフォームサービスでは、6つの主要プラットフォームを統一的にサポートするサービスが期待されます。
5. まとめと所感
5.1 論文の意義
この研究はAI分野で注目されているコンピュータ使用エージェントのスケーリングにおいて画期的な貢献をしています。
特に、以下の点で重要な意義を持ちます。
- オープンソースアプローチ: プロプライエタリモデルに依存しないオープンソースソリューションの提供
- クロスプラットフォーム統一: 異なるプラットフォーム間での一貫したエージェント動作の実現
- データドリブンスケーリング: 大規模データセットの効果的な構築と活用
- 実用的評価: 複数のベンチマークでの包括的評価と最新性能の達成
5.2 今後の展望
この研究はコンピュータ使用エージェント分野の発展に大きな影響を与えると予想されます。
短期的には次のような展望が期待されます。
- より多くのプラットフォームとアプリケーションへの対応拡大
- より高度な推論能力と計画能力の向上
- リアルタイム性能とレスポンシブ性の改善
長期的には次のような展望が期待されます。
- AGIに向けたコンピュータ使用能力の基盤技術としての発展
- 人間とAIのコラボレーションにおける新しいパラダイムの創造
- 自動化とヒューマンコンピュータインタラクションの根本的変革
この研究はオープンソースコミュニティでの更なる進歩を加速し、
AI技術の民主化と実用化に貢献すると考えられます。