MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

著者 Run-Ze Fan, Zengzhi Wang, Pengfei Liu (Shanghai Jiao Tong University, School of Intelligence Science and Technology, GAIR Lab)

所属 Shanghai Jiao Tong University, School of Intelligence Science and Technology (SII), GAIR Lab

投稿日 2025年07月24日

カテゴリ cs.AI, cs.LG

arXiv 2507.16812v1 ↗

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

基本情報

arXiv ID: 2507.16812v1 (https://arxiv.org/abs/2507.16812)
著者: Run-Ze Fan, Zengzhi Wang, Pengfei Liu (Shanghai Jiao Tong University, School of Intelligence Science and Technology, GAIR Lab)
所属: Shanghai Jiao Tong University, School of Intelligence Science and Technology (SII), GAIR Lab
投稿日: 2025年07月24日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

この論文は、大規模言語モデル（LLM）の科学推論能力を向上させるための、高品質な大規模データセットを提案しています。
著者らは、12,000冊以上の大学レベルの教科書から650,000個の推論問題を抽出した「TextbookReasoning」データセットを作成しました。
さらに、複数の公開データセットを組み合わせて125万個のインスタンスを含む「MegaScience」データセットも開発しました。
これらのデータセットで訓練されたモデルは、既存の公式インストラクションモデルを上回る性能を示し、より短い応答で高い効率性を実現しています。

関連リンクは以下の通りです。

GitHub: https://github.com/GAIR-NLP/MegaScience
HuggingFace: https://huggingface.co/MegaScience
評価フレームワーク: https://github.com/GAIR-NLP/lm-open-science-evaluation

1. 研究概要

1.1 背景と動機

大規模言語モデルは、知識検索システムから認知推論システムへと進化し、汎用人工知能（AGI）への重要なマイルストーンとなっています。
これらの推論モデルは主に数学とコーディングに焦点を当てています。
これらの領域には豊富なデータセット、確立されたベンチマーク、明確な検証メカニズムが存在します。
科学推論は、AIサイエンティストの開発と人間の研究者が自然科学の最前線を前進させるために不可欠な能力です。
しかし、特にオープンソースコミュニティでは、数学やコーディングと比較して十分に発達していません。

既存のオープンソース科学推論データセットには、重要な課題が残されています。
具体的には以下の4つの課題があります。

（1）信頼性の低いベンチマーク評価：多くのベンチマークが多肢選択形式を採用しており、科学推論の複雑さを過度に単純化している。
（2）不十分な汚染除去：既存の手法はn-gramの重複や埋め込み類似性に依存しており、わずかな変更で容易に回避される。
（3）低品質な参照回答：多くのデータセットの回答はWebからスクレイピングされたものかLLMによって生成されたもので、信頼性に欠ける。
（4）表面的な知識蒸留：大規模推論モデルからの直接的な蒸留は、過度に長い思考連鎖を生成し、訓練と推論の効率を低下させる。

1.2 主要な貢献

本研究の主要な貢献は以下の通りです。

TextbookReasoningとMegaScienceという2つのデータセットを提示し、これらで微調整された基礎モデルが科学タスクにおいて公式インストラクトモデルを上回ることを実証。
より短い応答（TextbookReasoningで410トークン、MegaScienceで721トークン）により、訓練と推論の効率性を向上させながら、科学領域で優れた性能を達成。
データキュレーションパイプライン、評価システム、データセット、および7つの訓練済みモデルをコミュニティに公開。

2. 提案手法

2.1 手法の概要

本研究では、科学推論能力向上のための2つの主要なデータセット作成パイプラインを提案しています。

TextbookReasoningパイプラインでは、大学レベルの教科書から高品質な推論問題を自動的に抽出するシステムを構築しました。
このパイプラインは、教科書のデジタル化、二重基準によるQ-A ペアの抽出、重複除去、Q-A ペアの洗練、フィルタリング、LLMベースの汚染除去から構成されています。

MegaScienceパイプラインでは、複数の公開データセットを収集しました。
具体的には、NaturalReasoning、Nemotron-Science、TextbookReasoningを使用し、各データセットに対して最適なデータ選択手法を特定するための包括的なアブレーション研究を実施しました。

2.2 技術的詳細

TextbookReasoningの技術的詳細：

教科書の収集とデジタル化：
- Webから PDF文書をクロールし、12,800冊の学術書籍を収集
- olmOCRを使用してPDFを機械可読テキストに変換
二重Q-Aペア抽出：
- 高基準：多段階推論を要求し、完全な解法手順を含む問題のみを抽出
- 低基準：完全な質問と回答のみを要求
- 教科書を4,096トークンのチャンクに分割し、Llama3.3-70B-Instructで処理
質問の重複除去：
- 局所性敏感ミンハッシング技術を使用（閾値0.6）
Q-Aペアの洗練：
- DeepSeek-V3を使用して、文脈情報の追加と推論プロセスの明確化
LLMベースの汚染除去：
- 埋め込み類似性検索で上位5件の類似例を特定
- Llama3.3-70B-Instructで言い換えかどうかを判定

MegaScienceの技術的詳細：

データ選択手法として3つの方法を設計：

応答長選択：最も長い応答を持つ質問を保持
難易度選択：参照回答アノテーションと難易度評価の2段階プロセス
ランダム選択：ランダムに質問を選択

2.3 新規性

本研究の新規性は以下の点にあります：

信頼性の高いソース：Web データやLLM生成データではなく、人間の専門家によって作成された教科書を使用
効率的な推論：過度に長い思考連鎖を避け、より短い応答で高い性能を実現
包括的な汚染除去：従来のn-gram手法ではなく、LLMベースの言い換え検出を使用
体系的なデータ選択：各データセットに対して最適な選択手法を実験的に特定

3. 実験結果

3.1 実験設定

評価ベンチマーク：

一般的科学推論：MMLU、GPQA-Diamond、MMLU-Pro、SuperGPQA、SciBench、OlympicArena
特定分野の科学推論：ChemBench、CS-Bench、MedQA、MedMCQA、PubMedQA、PIQA
数学的推論：GSM8K、MATH、MATH500

訓練設定：

基礎モデル：Qwen2.5、Qwen3、Llama3シリーズ
訓練フレームワーク：LLaMA-Factory
デフォルトモデル：Qwen2.5-7B

3.2 主要な結果

TextbookReasoningの性能：

ほとんどのベンチマークで他のオープンソースデータセットを上回る
特に計算推論タスクで優れた性能を示す
SciBenchでNemotron-Scienceと比較して20.62%の改善
OlympicArenaで5.23%の改善

MegaScienceの性能：

14のベンチマークのうち7つで最高性能を達成
さらに3つのベンチマークで2位
Qwen2.5-7B-Instructと比較して全体平均で2.21%の改善
計算タスクで特に優れた性能：SciBench（48.75%）、OlympicArena（40.23%）

3.3 既存手法との比較

MegaScienceで訓練された基礎モデルは、対応する公式インストラクトモデルを上回る性能を示しました：

スケーリングの利点：

より大きく強力なモデルほど、MegaScienceの効果が大きい
Qwen2.5シリーズでの非単調なパターン：
- 1.5B：インストラクトモデルが2.99%優位
- 3B：差が0.15%に縮小
- 7B：MegaScienceが2.21%の改善を達成

効率性の比較：

平均応答長：TextbookReasoning（410トークン）、MegaScience（721トークン）
既存のDeepSeek-R1蒸留データと比較して大幅に短い応答
訓練効率と推論効率の両方で優位性を示す

4. 実用性評価

4.1 実装の容易性

本研究で提供されるリソースにより、実装は非常に容易です：

完全なデータキュレーションパイプラインがGitHubで公開
事前処理済みのデータセットがHuggingFaceで利用可能
7つの訓練済みモデルが直接使用可能
包括的な評価フレームワークが提供されており、結果の再現が容易

4.2 計算効率

効率性の面で大きな利点があります：

短い応答長により、訓練時間と推論時間の両方が短縮
マルチノード・マルチGPU並列化をサポートする評価システム
4,096トークンを超える応答をフィルタリングすることで、冗長なコンテンツを排除

4.3 応用可能性

幅広い応用が期待されます：

科学研究支援：物理、化学、生物学、医学など7つの科学分野をカバー
教育支援：大学レベルの科学教育での活用
AIサイエンティスト開発：科学的発見を支援するAIシステムの基盤
クロスドメイン推論：複数の科学分野にまたがる問題解決能力の向上

5. まとめと所感

5.1 論文の意義

この論文は、科学的推論における大規模言語モデルの能力を大幅に向上させる重要な貢献をしています。特に注目すべき点は以下の通りです：

信頼性の高いデータソース：教科書という人間の専門家によって作成された高品質な情報源を活用することで、Webデータや LLM生成データの問題を回避しています。これは、科学的正確性が重要な領域において特に価値があります。

効率性と性能のバランス：過度に長い思考連鎖を避けながら高い性能を達成している点は、実用的な観点から非常に重要です。これにより、計算リソースの制約がある環境でも高品質な科学的推論が可能になります。

包括的なリソース提供：データセット、モデル、評価フレームワーク、パイプラインのすべてを公開することで、研究コミュニティ全体の発展に貢献しています。

5.2 今後の展望

著者らが示唆する今後の研究方向：

TextbookReasoningの参照回答を使用した強化学習の探求
SFTモデルに対するRLの適用による長い思考連鎖推論能力の獲得
長い思考連鎖をより簡潔な形式に圧縮する研究

さらに、以下の発展も期待されます：

より多様な言語や文化圏の教科書を含めることによる多言語対応
実験データや観測データとの統合による実証的科学推論の強化
リアルタイムの科学的発見との連携による最新知識の統合