SciMaster: Towards General-Purpose Scientific AI Agents
SciMaster: Towards General-Purpose Scientific AI Agents
基本情報
- arXiv ID: 2507.05241v1 (https://arxiv.org/abs/2507.05241)
- 著者: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Siheng Chen
- 所属: School of Artificial Intelligence, Shanghai Jiao Tong University
- 投稿日: 2025年07月07日
- カテゴリ: cs.AI, cs.LG, cs.CL
簡単に説明すると
この論文は、科学的発見を加速するための汎用的な科学AIエージェント「SciMaster」シリーズの第1部として、「X-Master」という基盤アーキテクチャを提案しています。
X-Masterは、人間の研究者のように内部推論と外部ツール使用を柔軟に切り替えながら問題を解決するツール拡張推論エージェントです。
このエージェントの特徴は、コードを「対話言語」として使用することです。
問題に直面すると、X-MasterはPythonコードを生成して実行し、NumPyやSciPyなどの数値計算ライブラリから、Web検索やデータ抽出のための独自ツールまで、必要なリソースにアクセスできます。
さらに、複数のX-Masterエージェントを組み合わせた「X-Masters」というワークフローを開発し、推論の幅と深さを体系的に向上させています。
X-Mastersは、人類最後の試験(Humanity's Last Exam、HLE)で32.1%のスコアを達成し、OpenAI(26.6%)とGoogle(26.9%)の記録を大幅に上回り、世界で初めて30%の閾値を超えました。
プロジェクトのコードは以下で公開されています。
1. 研究概要
1.1 背景と動機
人工知能、特に大規模言語モデル(LLM)は前例のない速度で進化しています。
わずか2年間で、GPT-3.5/4のような会話型モデルから、DeepSeek R1のような強力な推論器、そして今やOpenAIのo3やGoogleのGemini 2.5 Proのような柔軟なツール使用能力を持つAIエージェントへと劇的に変化しました。
汎用エージェントへのこの移行は、AIエージェントを活用して科学的発見を加速するという長年の野心に火をつけています。
科学的発見のためのAIを実現するには、AIエージェントがまず人間の科学的知識の最前線を深く理解していることを示す必要があります。
この目的のため、Humanity's Last Exam(HLE)は重要で例外的に挑戦的な試金石として機能します。
HLEは、500以上の機関から約1,000人の分野専門家のグローバルな協力により開発され、人間の知識の最前線にある多様で専門家レベルの課題で構成されています。
OpenAI(26.6%)とGoogle DeepMind(26.9%)による有望な進歩が見られましたが、それらのクローズドソースな性質は、コミュニティの理解と参加を著しく制限し、広範な探索とイノベーションを妨げています。
このため、オープンソースモデルが最先端の性能を達成し、さらにはそれを超えることを可能にする実用的なロードマップを探求することが重要です。
1.2 主要な貢献
この研究の主要な貢献は以下の通りです。
- 外部ツールと柔軟に対話しながら推論を行うツール拡張推論エージェント「X-Master」の開発
- コードを対話言語として概念化し、多様なリソースへの柔軟なアクセスを実現
- 推論の幅と深さを体系的に向上させる「X-Masters」ワークフローの設計
- HLEで32.1%の新記録を達成し、OpenAIとGoogleの記録を大幅に上回る
- 完全にオープンソースのソリューションとして、再現と改良のための詳細を提供
2. 提案手法
2.1 手法の概要
X-Masterは、オープンソースモデル(DeepSeek-R1など)を使用したツール拡張推論エージェントです。
人間の研究者が内部推論と外部ツール使用を流動的に切り替える動的な問題解決プロセスを模倣するように設計されています。
この方法論の中核は、コードを対話言語として概念化することです。
内部的に解決できない問題に直面したとき、X-Masterはコードブロックとして正確な行動計画を策定します。
この「計画」は実行され、NumPyやSciPyの数値計算能力から、ライブWeb検索やデータ抽出のためのカスタム設計ツールキットまで、必要なリソースとインターフェースを取ります。
X-Mastersは、推論時の知能をスケールするために設計された散乱とスタックのエージェントワークフローです。
このワークフローは、複数のX-Masterインスタンスがいくつかの専門的な役割を採用するマルチエージェント認知プロセスを編成することにより、推論の幅と深さを体系的に向上させます。
2.2 技術的詳細
コードを対話言語として使用
エージェントの思考プロセス中(と
内のコードを生成できます。
このパターンが文字列マッチングで検出されると、内部のコードが抽出され、様々なPythonライブラリとツールにアクセス可能なサンドボックス環境で実行されます。
実行結果はモデルのコンテキストに追加され、<execution_results>と</execution_results>という特殊トークンで囲まれます。
初期推論ガイダンス
現在利用可能な強力な推論モデル(DeepSeek-R1など)は本質的に非エージェント的であり、指示追従能力が限定的であることが多いため、従来のプロンプトエンジニアリングだけでは不十分です。
代わりに、初期推論ガイダンスという簡単で効果的なメカニズムを導入します。
具体的には、モデルの最初の
これらのガイドテキストは、推論エージェント自身の視点から第一人称で意図的に作成されます。
ツール
Web検索ツールは、与えられた質問に対して最も関連性の高いWebページを特定するためにGoogle検索エンジンを活用します。
エンティティ関連の事実、関連Webページのプレビュー、関連検索クエリの3種類の貴重な情報を提供します。
Webパースツールは、一般的なWebページと科学論文に合わせた2つの異なる解析戦略をサポートします。
一般的なWebページ解析では、ターゲットWebページから主要なコンテンツを抽出し、クエリと高度に関連するセグメントを特定します。
科学論文解析では、HTMLバージョンの取得を試み、失敗した場合はPDFドキュメントをダウンロードします。
X-Mastersワークフロー
このワークフローは4つの段階で構成されています。
- Solverによる幅広い初期解の生成
- Criticによる解の改良
- Rewriterによる幅広い解の書き直し
- Selectorによる最終選択
散乱段階では、5つの初期解を並行して生成し、多様性を確保します。
スタック段階では、書き直しと選択を通じて解を強化し、組み合わせます。
2.3 新規性
この研究の新規性は以下の点にあります。
- コードを対話言語として使用する最も一般的なアプローチの提案
- 既存のPythonライブラリ、カスタムツール、推論時に動的に生成される新しいツールへのアクセスを可能にする拡張性
- 散乱とスタックの原則に基づくエージェントワークフローによる推論時計算のスケーリング
- オープンソースモデルを使用してHLEで世界記録を達成
3. 実験結果
3.1 実験設定
エージェントは、DeepSeek-R1-0528を推論モデルとして使用します。
最大完了トークンは64kに設定され、温度は0.6です。
現在活用されているモデルがマルチモーダルではないため、Humanity's Last Examからのテキストのみのサブセットに焦点を当て、2,518サンプルで構成されています。
評価のために、ワークフローを3回実行し、平均スコアを報告し、公式セットアップに従ってo3-miniを審査モデルとして利用します。
ベースラインとして、研究エージェント(OpenAIのDeep Research、Google DeepMindのDeep Research、Kimi-Researcher)と高度なモデル(Gemini 2.5 Pro、DeepSeek-R1-0528、Claude 4 Opus)と比較します。
3.2 主要な結果
X-MastersはHLEで最高スコア32.1%を達成し、Gemini Deep Research(26.9%)とOpenAI Deep Research(26.6%)を含むすべての既存のエージェントとモデルを上回りました。
これは、システムがHLEで30%を超えて実行した初めての例であり、有望な新記録を設定しています。
カテゴリ別の性能分析では、X-MastersはDeepSeek-R1-0528と比較してすべてのカテゴリで顕著な改善を示しています。
これは、ツール拡張推論とエージェントワークフローの幅広い適用性と有効性を強調しています。
ワークフロー段階全体のアブレーション結果では、段階的な利得が明らかになりました。
ツール拡張推論(Solver)はベースライン精度を3.4%向上させ、反復的な改良(CriticとRewriter)は9.5%を追加し、最終選択(Selector)は記録的な32.1%を達成します。
生物学分野での評価では、X-MastersはHLEの生物学/医学カテゴリで27.6%の精度を達成し、Biomni(17.3%)とSTELLA(約26%)を上回りました。
また、生物学研究ベンチマークTRQA-lit(選択)でも、X-Masterは62.1%、X-Mastersは最先端の67.4%を達成しました。
3.3 既存手法との比較
ツール拡張LLMの既存手法と比較して、X-Masterの優位性は以下の点にあります。
- プロンプトエンジニアリングベースの手法と異なり、複雑な問題に対する反復的なツール使用に必要な適応性を持つ
- 特殊トークンガイドツール呼び出し手法と異なり、新しいツールの統合が容易
- コード生成手法と異なり、計算だけでなく実世界のシナリオに合わせたカスタムツールへのアクセスが可能
エージェントワークフローについても、既存の手法が固定的な単一ターンで動作するのに対し、X-Mastersは柔軟なマルチターン方式で動作し、内部推論と外部ツール使用を反復的に相互作用させることができます。
4. 実用性評価
4.1 実装の容易性
X-Masterの実装は、DeepSeek-R1などの既存のオープンソース推論モデルをベースにしているため、比較的アクセスしやすいです。
コードを対話言語として使用するアプローチは、特別なモデルの再訓練を必要とせず、コンテキストの動的操作によって実現されます。
初期推論ガイダンスのメカニズムも簡単で、モデルのコンテキストに適切なテキストを挿入するだけで実装できます。
ツールの統合も、Pythonコードの実行環境を準備するだけで可能です。
プロジェクトはオープンソースとして公開されており、再現と改良のためのすべての詳細が提供されています。
4.2 計算効率
X-Masterは、最大64kトークンの生成を許可し、温度0.6で動作します。
これは相当な計算リソースを必要としますが、モデルの再訓練を必要としないため、訓練コストは発生しません。
X-Mastersワークフローでは、5つの並行解生成と複数の改良段階があるため、単一のX-Masterよりも計算コストが高くなります。
しかし、この追加コストは、HLEでの大幅な性能向上(17.7%から32.1%への向上)によって正当化されます。
推論時の計算によって性能を向上させるアプローチは、大規模な再訓練を必要とする手法と比較して、より実用的で費用対効果が高いです。
4.3 応用可能性
X-MasterとX-Mastersは以下のような幅広い応用が期待されます。
- 科学研究支援:文献分析、科学計算、実験ワークフローのサポート
- 教育支援:複雑な科学的概念の説明と問題解決の支援
- 産業研究開発:技術文書の分析、特許調査、研究動向の把握
- 医療研究:生物医学的問題の解決、文献レビュー、診断支援
- 一般的な問題解決:複雑な問題に直面し、どのモデルや方法を使用すべきか不確かな場合の最良のソリューション
特に、X-Mastersは専門的な科学計算ツールのスイートを装備することで、ドメイン固有の研究問題を解決し、科学的発見を進めることができます。
5. まとめと所感
5.1 論文の意義
この研究は、オープンソースモデルが最先端の性能を達成し、さらにはそれを超えることが可能であることを実証した重要な研究です。
単一の新しいアルゴリズムを提案するのではなく、実用的な「ノウハウ」を研究コミュニティと共有することに主要な貢献があります。
X-Masterのアーキテクチャは、人間の問題解決プロセスを効果的に模倣し、内部推論と外部ツール使用の間の共生的なループを作り出しています。
これにより、モデルは静的な推論器から、人間のように能動的に情報を探し出して利用できる俊敏な問題解決エージェントに変換されます。
HLEでの世界記録達成は、このアプローチの有効性を実証するだけでなく、資源豊富な産業ラボの独占的な領域ではないことを示しています。
オープンソースコミュニティも、適切な方法論とアプローチにより、最先端のベンチマークで主導的な役割を果たすことができます。
5.2 今後の展望
論文で議論されている今後の展望として以下が挙げられます。
- SciMasterシリーズの拡張:X-Masterのアーキテクチャ基盤を大幅に拡張し、文献分析、科学計算、実験ワークフローをサポートする専門的な科学エージェントとツールの開発
- エンドツーエンドで訓練されたエージェントの構築:X-Mastersが示した洗練された推論とツール使用能力を完全に内在化したエージェントの開発
- マルチモーダル対応:現在はテキストのみに焦点を当てているが、画像や他のモダリティを含む完全なHLEへの対応
- より効率的なワークフローの設計:計算コストを削減しながら性能を維持または向上させる方法の探求
- ドメイン特化型エージェントの開発:特定の科学分野に特化した、より専門的なエージェントの構築
特に興味深いのは、この研究が推論時計算によってLLMの能力を向上させる実用的なロードマップを提供していることです。
これは、大規模な再訓練を必要とせずに、複雑な問題解決に関する深い理解を得て、将来の進歩を inform する貴重な経験を蓄積することを可能にします。
この過程で開発された洞察と方法論をオープンに共有することで、分野内でのより大きな参加と進歩の加速を促進することが期待されます。