CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

著者 Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

所属 Shanghai Jiao Tong University, Shanghai AI Laboratory, The Chinese University of Hong Kong, The University of Hong Kong

投稿日 2025年08月29日

カテゴリ cs.AI, cs.LG

arXiv 2508.20096v1 ↗

CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

基本情報

arXiv ID: 2508.20096v1 (https://arxiv.org/abs/2508.20096)
著者: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang
所属: Shanghai Jiao Tong University, Shanghai AI Laboratory, The Chinese University of Hong Kong, The University of Hong Kong
投稿日: 2025年08月29日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

CODAは、人間の脳の構造からインスピレーションを得た新しいコンピュータ使用エージェントフレームワークです。
従来のモノリシックなアプローチとは異なり、高レベルな計画を担当する「大脳皮質（Cerebrum）」と低レベルな実行を担う「小脳（Cerebellum）」に機能を分離しています。
大脳皮質にはQwen2.5-VL-32B、小脳にはUI-TARS-1.5-7Bを使用し、GRPO（Group Relative Policy Optimization）による分離型強化学習で大脳皮質のみを訓練します。
GitHubリポジトリ（https://github.com/OpenIXCLab/CODA）でコードとモデルが公開されており、特に科学計算分野のGUIタスクで優れた性能を発揮しています。

1. 研究概要

1.1 背景と動機

GUI（Graphical User Interface）操作の自動化エージェントは、複雑なデジタルタスクの自動化において大きな可能性を秘めていますが、特に科学計算やエンジニアリング分野での応用は極めて困難です。
これらの分野では2つの主要な課題があります。（1）インターフェースが高度に複雑で、正確かつ細粒度のアクションが要求される点です。（2）問題が本質的に複雑で、効果的な解決策を得るため長期的な計画が必要な点です。

現在のモデルには明確なトレードオフが存在します。
Qwen2.5-VLのような汎用モデルは堅牢な計画能力を提供しますが、信頼性のある実行に必要な正確なグラウンディングに苦労します。
一方、UI-TARSのような専門化されたエージェントは実行において高い熟練度を示しますが、複雑で高レベルな計画能力は制限されています。

1.2 主要な貢献

この研究では、人間の脳の機能構造からインスピレーションを得た訓練可能な合成フレームワークCODAを提案しています。主要な貢献は以下の通りです：

人間の脳の大脳皮質と小脳の機能分化に基づく、新しい双脳アーキテクチャの提案
高レベル計画（大脳皮質）と低レベル実行（小脳）の分離による効果的な機能分担の実現
実行モデルを固定したまま計画モデルのみを最適化する分離型強化学習手法の開発
自動探索パイプラインによる高品質な訓練データ生成システムの構築
専門化から汎化への2段階訓練戦略による効果的な学習プロセスの確立

2. 提案手法

2.1 手法の概要

CODAフレームワークは、Partially Observable Markov Decision Process（POMDP）として定式化されたGUI操作タスクを解決するために設計されています。
システムは自然言語指示を受け取り、スクリーンショットという視覚観測を通じて環境の状態を認識し、pyautoguiスクリプトとして正確にパラメータ化されたアクションを生成します。

アーキテクチャの核心は、Planner-Executorフレームワークによる決定プロセスの構造化です。
Planner（大脳皮質）はQwen2.5-VL-32Bモデルで実装され、タスクの進行状況を分析し、各ステップで高レベルの明示的計画を策定します。
Executor（小脳）はUI-TARS-1.5-7Bモデルを使用し、計画者の抽象的思考を正確で実行可能なアクションに変換する責任を負います。

2.2 技術的詳細

訓練プロセスは2段階のカリキュラムで構成されています。

第1段階：分離型強化学習による専門化
この段階では、各ソフトウェアアプリケーションに対して個別にPlanner（大脳皮質）を最適化します。
EmpricalanalysisによりExecutorは強力な汎化能力を示すことが判明したため、Plannerのみを対象とした分離型訓練戦略を採用しています。
Group Relative Policy Optimization（GRPO）を適用し、候補計画グループからの相対的品質比較による学習信号を提供します。

報酬関数は、アクション型の正確性を評価するバイナリ報酬と、座標やバウンディングボックスなどのパラメータ類似性に基づく連続報酬を組み合わせています：

r^(i) = I(type(a^(i)) = type(a_T)) + r_dist(a^(i), a_T)

第2段階：集約的教師あり微調整による汎化
専門家から汎用家への移行戦略を採用し、4つの専門化された教師モデルから生成された高品質軌道を使用して汎用モデルを訓練します。
この段階により、個別の専門家を上回る性能と、より強力な推論・反射能力を持つ汎用モデルが実現されます。

2.3 新規性

本研究の新規性は以下の点にあります：

生物学的にインスパイアされた設計: 人間の脳の大脳皮質と小脳の機能分化を模倣した設計により、安定した実行能力と適応的な計画能力を効果的に分離しています。

分離型強化学習: 従来のモノリシックなend-to-end訓練とは異なり、実行モデルを固定して計画モデルのみを最適化することで、訓練効率と制御可能性を大幅に向上させています。

自動探索システム: 人間によるラベル付き軌道に依存せず、オープンソースモデルから構築されたjudgeシステムと自律的環境相互作用により、高品質な訓練データを自動生成します。

分散仮想マシンシステム: HTTP基盤のmaster-clientアーキテクチャにより、数百の同時環境での効率的なスケーリングを実現しています。

3. 実験結果

3.1 実験設定

評価はScienceBoardベンチマークの4つの典型的科学ソフトウェアアプリケーション（Algebra、Biochemistry、GIS、Astronomy）で実施されました。
ベースラインとして、GPT-4o、Claude-3.7-Sonnet、Gemini-2.0-Flash等のプロプライエタリモデルと、Qwen2.5-VL-72B、InternVL3-78B、UI-TARS-1.5-7B等のオープンソースモデルとの比較を行いました。

評価指標として、Average@1、Average@8、Pass@8の成功率を使用し、それぞれ単一試行、8回試行の平均成功率、8回試行での最高成功率を測定しています。

3.2 主要な結果

実験結果は、CODAフレームワークの優れた性能を示しています：

全体性能: CODA（Stage-2）は、Average@8で21.04%の全体成功率を達成し、最高のオープンソースベースライン（Qwen2.5-VL-72B：12.94%）を大幅に上回りました。

分野別性能:

Algebra: 20.16%（ベースライン22.58%より向上が見られる）
Biochemistry: 32.23%（ベースライン27.59%から大幅向上）
GIS: 14.71%（ベースライン5.88%から大幅向上）
Astronomy: 17.05%（ベースライン9.09%から大幅向上）

段階的向上: Stage-1（専門化）からStage-2（汎化）への移行により、すべての分野で一貫した性能向上が確認されました。

3.3 既存手法との比較

プロプライエタリモデルとの比較では、Claude-3.7-Sonnetの14.15%に対してCODAの21.04%という結果となり、オープンソースモデルとしては最高水準の性能を達成しています。

Judge システムの評価では、単一モデル（64.5%精度）から投票ベースアンサンブル（81.2%精度）まで、段階的な精度向上が確認されました。
マルチ解像度入力とモデルアンサンブルの組み合わせにより、高精度な報酬信号の提供が実現されています。

4. 実用性評価

4.1 実装の容易性

CODAフレームワークは、既存の高性能モデル（Qwen2.5-VL、UI-TARS）を組み合わせた構造となっており、実装の容易性が高く評価できます。
分離型アーキテクチャにより、各コンポーネントを独立して更新・改善することが可能で、メンテナンス性も優れています。
GitHubでのコード公開により、研究コミュニティでの再現性と拡張性が確保されています。

4.2 計算効率

分離型訓練戦略により、従来のend-to-end訓練と比較して大幅な計算コスト削減が実現されています。
実行モデル（小脳）を固定することで、計画モデル（大脳皮質）のみの最適化に集中でき、訓練時間とリソース使用量を効果的に削減しています。
分散仮想マシンシステムによる並列処理により、大規模訓練の効率性も大幅に向上しています。

4.3 応用可能性

科学計算分野での成功例から、エンジニアリング、医療、教育等の専門ドメインへの拡張可能性が高いと評価されます。
Planner-Executorの分離設計により、異なるドメインに対して計画部分のみをカスタマイズすることで、効率的な領域適応が可能です。
自動探索パイプラインにより、新しいソフトウェア環境に対する適応も比較的容易に実現できると期待されます。

5. まとめと所感

5.1 論文の意義

本論文は、GUI操作エージェントの分野において重要な breakthrough を提示しています。
人間の脳構造からインスピレーションを得た設計思想は、単なる工学的便宜を超えて、認知科学的な洞察に基づく合理的なアプローチとして評価できます。

分離型強化学習による訓練効率の向上は、リソース制約のある研究環境において特に価値があり、オープンソースコミュニティでの研究促進に大きく貢献すると期待されます。
ScienceBoardでの実証的成功は、複雑な専門ドメインでのAIエージェント実用化への道筋を明確に示しています。

5.2 今後の展望

今後の発展方向として、以下の点が期待されます：

マルチモーダルフィードバックの拡張: 現在のスクリーンショットベースの観測を超えて、音声やハプティクスフィードバックを統合することで、より豊かな環境認識が可能になるでしょう。

連続学習機能の強化: 長期間の使用を通じた継続的適応能力の向上により、より動的な環境での性能維持が期待されます。

ドメイン拡張: 科学計算以外の専門分野（法律、金融、創作等）への適用により、フレームワークの汎用性が一層実証されるでしょう。

また、現在のjudgeシステムの精度向上や、より複雑なマルチステップタスクへの対応など、技術的な課題への継続的な改善も重要な研究課題となると考えられます。