Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

著者 Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng Zhang, Anirudh Goyal, Alan Schelten

所属 University of Oxford, ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems, Anthropic, Meta Superintelligence Labs

投稿日 2025年09月22日

カテゴリ cs.LG, cs.AI

arXiv 2509.14234v1 ↗

Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

基本情報

arXiv ID: 2509.14234v1 (https://arxiv.org/abs/2509.14234)
著者: Dulhan Jayalath, Shashwat Goel, Thomas Foster, Parag Jain, Suchin Gururangan, Cheng Zhang, Anirudh Goyal, Alan Schelten
所属: University of Oxford, ELLIS Institute Tübingen, Max Planck Institute for Intelligent Systems, Anthropic, Meta Superintelligence Labs
投稿日: 2025年09月22日
カテゴリ: cs.LG, cs.AI

簡単に説明すると

この論文は、大規模言語モデル（LLM）の学習において、推論時の計算量を教師信号に変換する新しい手法「Compute as Teacher（CaT）」を提案しています。従来のモデル学習では正解データや専門家の注釈が必要でしたが、CaTは複数の回答を生成させ、それらを統合することで自動的に高品質な参照回答を作成します。

具体的には、現在のモデルが複数の解答候補を生成し、固定された初期モデル（アンカー）がそれらの矛盾を解決して最適な回答を合成します。数学のような検証可能な問題では最終答えの一致で、医療相談のような検証困難な問題では自動生成されたルーブリック（評価基準）で評価します。

MATH-500（数学問題）で最大27%、HealthBench（医療相談）で最大12%の性能向上を、人間の注釈なしで達成しました。論文では実装の詳細や実験コードは明示されていませんが、GRPO（Group Relative Policy Optimization）とveRLライブラリを使用したとされています。

1. 研究概要

1.1 背景と動機

大規模言語モデルの特化スキル学習は従来、教師ありファインチューニングまたは検証可能な報酬システムに依存してきました。しかし、多くの有価値なタスクではこれらのアプローチが適用困難です。

特に検証困難な領域（臨床指導、自由形式対話、創作など）では、複数の有効な答えが存在します。このため専門家間でも意見の相違が生じることがあります。プログラマティックなルールチェックも実用的ではありません。その結果、実務者は拡張困難な注釈パイプラインか、一貫性やバイアスの問題を抱えるLLM判定のみのフィードバックに頼らざるを得ない状況にあります。

本研究は「推論計算を不足する教師信号の代替とできるか」という根本的な問題に取り組みます。この問題意識は、注釈のボトルネックが特化モデル開発の制約要因となっている現状から生まれています。人間の参照テキストを超越し、計算を用いて教師信号を生成することで、人間データの限界を超えた超人的能力への道筋を示唆する可能性があります。

1.2 主要な貢献

本論文の主要な技術的・学術的貢献は、推論時計算を教師信号に変換する実用的かつ汎用的なフレームワークの確立です。これまで分離されていた探索と教師信号生成を統合し、注釈のボトルネックの解決策を提示しています。

本研究の貢献は以下の3点です。

Compute as Teacher手法の提案
並列rolloutから安定したアンカー政策を用いて参照回答を推定する簡潔な手順です。
自己提案ルーブリック報酬の開発
検証困難なタスクにおける人間参照を回避し、脆弱な判定のみのスコアへの依存を軽減する実用的で監査可能な信号を実現しました。
総合的な実証研究の実施
MATH-500とHealthBenchにおけるテスト時とRL獲得の検証、および3つのモデルファミリーでの分析を実施しました。非多数派の調停、全rolloutが間違っている場合の修正、rollout数に応じた改善のスケーリングを示す分析も含みます。

2. 提案手法

2.1 手法の概要

Compute as Teacher（CaT）は、モデルの探索を教師信号に変換する新しいアプローチです。各プロンプトに対して、現在のポリシーが複数の並列rolloutを生成します。その後、固定されたアンカー（初期ポリシー）が、rollout集合のみを条件として、省略、矛盾、部分解決を調停し、単一の推定参照を合成します。

この分離から、現在のポリシーが探索を行い、安定した推定器が追加の推論計算をモデルの行動から完全に導出された教師信号に変換します。実用的には、CaTはRL（例：GRPO）で既に一般的なグループrollout計算予算を再利用し、グループをサンプリングするために既に費やした計算を超えて、ほとんどオーバーヘッドを追加しません。

2.2 技術的詳細

CaTの核心は、推定参照合成ステップです。論文では、GRPO（Group Relative Policy Optimization）フレームワークを使用しています。数式的には、問題qとポリシーπ_tに対してG個のrolloutを描画します：

o_i ∼ π_t(・ | q), i=1,...,G

合成プロンプトp_synとrollout集合のみを使用して、アンカーが合成された参照を生成します：

s ∼ π_0(・ | p_syn, o_{1:G})

注意すべきは、式においてqを省略していることです。これは、簡単に新しいrolloutを生成することを阻止し、アンカーが純粋にモデル探索で動作することを強制し、o_{1:G}間の相補的証拠を統合し、不一致を解決します。

推定参照sが得られると、CaTは2つの領域でR(q,o)を定義します：

検証可能タスク: 数学のようなタスクでは、プログラマティック検証器v(o,s)∈{0,1}（例：最終答えの等価性）を使用します。
非検証可能タスク: アンカーがsを応答固有のルーブリックℝ={r_i}_{i=1}^nに変換し、独立した判定LLMπ_Jが各基準を評価します。

2.3 新規性

CaTの最大の革新性は、選択ではなく合成であることです。信頼度ヒューリスティック、パープレキシティ、多数投票、またはLLM判定を使用して単一のrolloutを選択する自然な代替手法とは異なり、CaTは新しい答えを構築します。

この答えは、(i)正当に多数派と意見が分かれることができ、(ii)すべてのrolloutが間違っていても正しいことができます。実験的に、研究者たちは両方の行動を観察し、問題の14%で多数派との意見の相違、やく1%ですべてのrolloutとの意見の相違を示し、選択ではなく構造化された調停を示しています。

さらに、性能はrollout数Gでスケールし、実用的なFLOPs→教師信号のトレードオフを生み出します。best-of-Nや多数投票のような選択手法とは異なり、CaTはモデルの生成空間内でアンサンブルのようなエラー修正を可能にします。

3. 実験結果

3.1 実験設定

研究者たちはCompute as Teacherを2つのモードで評価しました。CaT（推論時合成のみ）とCaT-RL（CaT由来の報酬でのトレーニング）です。評価は3つのモデルファミリー（Gemma 3 4B、Qwen 3 4B、Llama 3.1 8B）で実施しました。

評価は検証可能領域でMATH-500（LLMの数学進歩を測定する500問のセット）、非検証可能領域でHealthBench（医師とユーザーの5000フリーフォームヘルスケアチャットのデータセット）に及びます。

MATH-500では、参照ラベルをトレーニングで使用せずに同じ500問でトレーニングとテストを行い、TTRLのテスト時トレーニング設定に従いました。HealthBenchでは、医師が設計した評価ルーブリックを持つ500問をホールドアウトし、GPT-4oを判定としてルーブリックスコアを報告しました。

特に注意すべきは、CaTがアンカーをG=8のrolloutで条件づけ、推論時にCaTを評価するときはπ_t=π_0（重み更新なし）であることです。

3.2 主要な結果

研究結果は顕著で、CaT-RLが初期ポリシーを最大30%相対的に改善し、推論時CaTを上回りました。Qwen 3 4Bの数学を除いて、CaT-RLは初期教師信号さえも改善しました。これは、CaT-RLがポリシーを改善し、推定参照を改善し、さらにポリシーを改善する好循環を示しています。

重要な知見として、自己提案ルーブリックが非検証可能領域で効果的な報酬であることが示されました。自己提案ルーブリックはモデル判定を上回り、人間専門家の注釈と競争しました。さらに、自己提案ルーブリックを使ったRL（CaT-RL）はSFTよりも優れていることがわかりました。

推論時のCaTは、MATH-500で27%、HealthBenchで12.5%改善し、代替手法を上回りました。これらの代替手法には、自己選択Best-of-N、最小パープレキシティ、相互予測可能性、多数投票が含まれます。

3.3 既存手法との比較

研究者たちは、CaTが単一サンプルおよび選択ベースラインよりも優れた参照推定を生成し、最も汎用性が高いことを示しました。特に注目すべきは、CaTが単一rolloutでのコンテキストでのパフォーマンスが単一rollout自体をわずかに上回るだけであることです。

これは、合成の追加生成ステップが単に過去のコンテキストで自己条件付けする新しいrolloutとしてのみ動作していないことを示唆しています。代わりに、CaTが(a)コンテキスト内の単一rolloutでの単一生成でわずかに改善し、(b)複数のrolloutで多数投票を上回るため、使用するrolloutの省略、不一致、推論パターンを解決しているに違いありません。

特に革命的なのは、CaTが稀に、条件とした全てのrolloutと意見が異なる正しい答えを生成することです。このような自己修正は、rollout答えの分布外で、best-of-Nや多数投票のような選択手法では不可能です。

4. 実用性評価

4.1 実装の容易性

CaTはドロップイン的な実装が可能で、人間のラベルを必要とせず、数学の簡単な答え等価性を超えたドメイン固有の検証器を必要としません。研究者たちは、GRPOとveRLライブラリを使用して実装し、既存のRLパイプラインに組み込みやすいことを示しました。

メソッドの主要な実装要件は、(1)推論時にスケールを高めて精度を高めるために追加の推論計算を費やす、あるいは(2)推定参照（またはルーブリック満足）をRLループ内の報酬に変換してトレーニング（CaT-RL）を実現することです。

4.2 計算効率

CaTの計算効率は実用的です。メソッドは、RL（例：GRPO）で既に一般的なグループrollout計算予算を再利用し、グループをサンプリングするために既に費やした計算を超えて、ほとんどオーバーヘッドを追加しません。

実験では、性能がロールアウト数Gでスケールすることを示し、GRPOが大きなGを使用する場合、CaT-RLはこれらのrolloutから改善された推定参照を「無料」で活用でき、追加のrolloutトークンをエンコードするだけで済みます。

アンカーモデルのサイズを考えると、合成ステップのコストは相対的に低く、特に複数のrolloutの情報を統合するアンサンブル様の効果を考えると、FLOPsと精度の間の優れたトレードオフを提供します。

4.3 応用可能性

CaTの応用可能性は非常に幅広いです。第一に、この手法は検証可能なタスク（数学、コーディング）と非検証可能なタスク（臨床指導、創作ライティング、フリーフォーム対話）の両方に適用できます。

第二に、参照答えが希少、高額、論争の余地がある、または未知である特化モデル開発のためのソリューションを提供します。アノテーションが特化モデル開発のボトルネックになるにつれ、人間の参照テキストを超え、計算を使用して教師信号を生成することは、人間データの限界を超えた超人的能力への道筋を示唆する可能性があります。

第三に、メソッドは他の問題への転用も可能です。合成は参照答えを推定するための一つの方法に過ぎず、CaT-RLはタスク固有の参照推定戦略で参照フリートレーニングへの扉を開きます。

5. まとめと所感

5.1 論文の意義

本論文は、LLMのポストトレーニングにおける根本的なパラダイムシフトを提示しています。「推論計算を教師信号に変換できるか」という問いに対して、明確な肯定的回答を提供し、実用的なソリューションを示しました。

特に重要なのは、検証可能タスクと非検証可能タスクの両方に対応した統一フレームワークを提供したことです。自己提案ルーブリックの導入により、高品質な人間注釈が取得困難な領域でも、細かい粒度で監査可能な評価基準を自動生成できるようになりました。

研究の技術的新規性は、単なる選択ではなく合成によるアプローチにあります。これにより、多数派と異なる答えであっても正しい場合、または全てのrolloutが間違っていても正しい答えを生成できる潜在的な能力を示しました。

5.2 今後の展望

論文の作者たち自身が言及しているように、いくつかの重要な限界と将来の研究方向があります。

まず、CaTは初期ポリシーが意味のある参照答えを推定できることに依存しています。弱いベースモデルや完全に未知のドメインでは、合成が改善を生み出すのに失敗する可能性があります。

第二に、ポリシーが収束し、rolloutの多様性が減少するにつれて改善がプラトーする動態が観察されました。CaTはrollout間の不一致を解決することに依存しているため、より類似した出力は推定参照からの改善を減少させ、したがってCaT-RLの教師信号を弱めます。

将来の研究の機会として、サンプリングや探索報酬を通じてより多様なrolloutを生成し、CaT-RLがより長く改善できるようにすることが挙げられています。さらに、自己提案質問や自動質問抽出は、人間が構築またはキュレーションしたデータを排除できる可能性があります。

最後に、合成は参照答えを推定するための一つの方法に過ぎず、CaT-RLはタスク固有の参照推定戦略で参照フリートレーニングへの扉を開きます。この方向は、思考や推論トレースでの合成、または営業システムの具体的な制約や要件に合わせたカスタム推定戦略など、幅広い応用の可能性を秘めています。