Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

著者 Siddarth Venkatraman, Vineet Jain, Sarthak Mittal, Vedant Shah, Johan Obando-Ceron, Yoshua Bengio, Brian R. Bartoldson, Bhavya Kailkhura, Guillaume Lajoie, Glen Berseth, Nikolay Malkin, Moksh Jain

所属 Mila -- Québec AI Institute, Université de Montréal, McGill University, LawZero, LLNL, University of Edinburgh, CIFAR

投稿日 2025年09月26日

カテゴリ cs.LG, cs.AI

arXiv 2509.26626v1 ↗

Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

基本情報

arXiv ID: 2509.26626v1 (https://arxiv.org/abs/2509.26626)
著者: Siddarth Venkatraman, Vineet Jain, Sarthak Mittal, Vedant Shah, Johan Obando-Ceron, Yoshua Bengio, Brian R. Bartoldson, Bhavya Kailkhura, Guillaume Lajoie, Glen Berseth, Nikolay Malkin, Moksh Jain
所属: Mila -- Québec AI Institute, Université de Montréal, McGill University, LawZero, LLNL, University of Edinburgh, CIFAR
投稿日: 2025年09月26日
カテゴリ: cs.LG, cs.AI

簡単に説明すると

この論文は大規模言語モデルの推論能力を向上させるテスト時スケーリング手法「Recursive Self-Aggregation (RSA)」を提案しています。RSAは進化的アルゴリズムにインスパイアされ、複数の候補推論チェーンを反復的に集約して改善された解を生成します。パラレルとシーケンシャルなスケーリングの利点を組み合わせ、部分的に正しい中間ステップから学習できます。AIME-25、HMMT-25などで大幅な性能向上を達成し、Qwen3-4B-Instruct-2507がDeepSeek-R1やo3-mini (high)に匹敵する性能を実現しました。さらに集約認識強化学習アプローチにより性能向上が確認されています。コードはGitHubで公開されています（https://github.com/HyperPotatoNeo/RSA）。

1. 研究概要

1.1 背景と動機

大規模言語モデル（LLM）は訓練計算量の増加とともに一貫した性能向上を示しています。これを補完するテスト時スケーリング戦略は、モデルパラメータを変更せずに推論時の計算量を増加させることで、大幅な性能向上を実現できます。

既存のテスト時スケーリング手法は大きく2つのタイプに分類されます。シーケンシャルスケーリングは深いモデルロールアウトを使用して解を反復的に改善し、パラレルスケーリングは複数の解探索パスを分岐させてフィルタリングや再結合を行います。しかし、複数の候補解から有望な断片を再利用できる汎用的で効果的なテスト時スケーリング手法が不足していました。

自己精緻化手法は自身の正しい部分を再利用できますが、他の候補に含まれる情報を活用できません。パラレルスケーリング手法のBest-of-N選択はバッチから最良の候補を特定できますが、候補を再結合して改良解を生成することはできません。既存のハイブリッドアプローチも推論チェーンの形式に強い仮定を置いたり、外部検証器を必要としたりするため、一般的な解決策を提供していませんでした。

1.2 主要な貢献

本研究の主要な貢献は以下の3点です。

自己集約アプローチの提案: クエリと候補解のセットをモデルに提供し、改良された解を生成するよう促す一般的手法を研究。モデルの暗黙的検証能力を活用し、推論チェーンに含まれる豊富な情報を利用できます。
再帰的自己集約（RSA）の開発: 自己集約を進化的アルゴリズムに着想を得た自己改善ループに統合した手法を提案。候補解の集団を維持し、集団のサブセットを反復的に再結合して改良された解の新集団を生成します。外部検証を必要とせず、任意のLLM推論パイプラインにシームレスに統合可能です。
集約認識強化学習の導入: 標準的なRL微調整がテスト時集約と組み合わせた際にベースモデル相対で性能が劣化することを観察し、LLMが解を集約するよう訓練する集約認識RLアプローチを提案。簡単なデータ拡張戦略を使用して実現されます。

2. 提案手法

2.1 手法の概要

Recursive Self-Aggregation（RSA）は複雑な足場や外部検証器を使用せずにモデル性能を向上させるように設計されたハイブリッドテスト時スケーリング手法です。推論を進化的プロセスの一形態として捉え、候補推論チェーンを自己集約により反復的に精緻化します。

RSAは各ステップtで候補解のN個の集団P_tを維持します。モデルには質問とこの集団からのK個の解のサブセットが提供され、改良された解の集団P_{t+1}を生成するよう促されます。このプロセスは集約ステップでエラーと不整合が段階的に除去され、有利な推論パターンが保持されることが期待されます。

具体的なプロセスは以下の通りです：

初期集団生成：N個の独立候補解をサンプリング
サブサンプリング：集団からK個の候補のN個の集約セットを均等抽出
集約：各セットとクエリを集約プロンプトで処理し、新集団を生成
終了：最終集団から解をランダムサンプリングまたは多数決投票で選択

2.2 技術的詳細

RSAの核心は候補解集団の反復的精緻化にあります。各ステップで集団サイズNと集約サイズKの比率が重要な役割を果たします。

集約サイズKは代替応答の考慮数を定義し、K=1は逐次自己精緻化に相当します。実験により、K=2に設定するだけで自己精緻化に対して大幅な改善が得られることが示されており、多様な解を組み合わせることの重要性が強調されています。

集団サイズNと集約サイズKの関係は慎重に調整する必要があります。Kに対してNが大きすぎると収束が遅くなり、小さすぎると多様性が不十分になります。Pass@Nスコア（N個の解のうち少なくとも1つが正しい確率）が漸近性能の上限として機能し、RSAによりPass@1がPass@Nに収束していきます。

自己集約は複数の軌跡で発生する推論パターンの過度な再利用により多様性の損失を引き起こす可能性があります。これを軽減するため、集約サイズKに対して大きな集団サイズNを維持し、再結合に十分な多様性を確保します。

2.3 新規性

RSAの新規性は複数の観点から評価できます。

理論的新規性として、テスト時スケーリングにおける進化的アプローチの体系的応用を初めて実現しました。従来の手法が単一軌跡の精緻化や単純な並列選択に限定されていた中で、複数候補の段階的混合による集団進化のアプローチを導入しています。

実装的新規性として、外部検証器や複雑な構造仮定を必要としない汎用的フレームワークを構築しました。モデルの暗黙的検証能力のみに依存し、任意のLLMに適用可能な実用的手法を実現しています。

方法論的新規性として、集約認識強化学習による訓練時と推論時の整合性確保を提案しました。標準的なRL訓練とテスト時集約の間のミスマッチを特定し、これを解決する具体的手法を開発しています。

3. 実験結果

3.1 実験設定

実験は数学、コード生成、一般推論、知識ベース推論の4つのベンチマークカテゴリで実施されました。数学タスクにはAIME-25とHMMT-25（各30問の競技レベル問題）、一般推論にはReasoning Gymから構築した2データセット（各100問）、コード生成にはLiveCodeBench-v6（1055問）、知識ベース推論にはSuperGPQA（1000問の大学院レベル多選択問題）を使用しました。

主要実験では集団サイズN=16、集約セットサイズK=4、再帰更新回数T=10に固定し、公平性確保のため追加訓練や外部検証器を必要としない手法のみと比較しました。結果は4シード平均（SuperGPQAは計算制約により1シード）で報告されています。

評価対象には命令調整モデル（Qwen3-4B-Instruct-2507、Qwen3-30B-A3B-Instruct-2507）、長い思考チェーンモデル（Qwen3-4B-Thinking-2507、gpt-oss-20b (medium)、NVIDIA-Nemotron-Nano-9B-v2）を含む多様なアーキテクチャのモデルを使用しました。

3.2 主要な結果

RSAは全てのタスクと多様なモデルファミリーで一貫した性能向上を達成しました。Qwen3-4B-Instruct-2507を使用した評価では、AIME-25で73.18%、HMMT-25で47.55%、LiveCodeBench-v6で56.72%のPass@1スコアを記録し、全ベースライン手法を上回りました。

特に注目すべき結果として、RSAによりQwen3-4B-Instruct-2507という小規模モデルがDeepSeek-R1やo3-mini (high)といった大規模推論モデルに匹敵する性能を実現したことが挙げられます。これは計算効率と性能のトレードオフにおいて重要な進歩を示しています。

逐次ベースラインとの比較では、RSAがT=10ステップの自己精緻化を一貫して上回り、複数解の集約が単一解の精緻化よりも明確な利点を持つことが示されました。並列ベースラインとの比較では、多数決投票とリジェクションサンプリングに対してほぼ全タスクで優位性を示しました。

ハイパーパラメータ分析により、シーケンシャル深度Tで単調な性能向上、集約サイズKの増加による性能改善、集団サイズNの適切な調整の重要性が確認されました。

3.3 既存手法との比較

RSAの性能を既存のテスト時スケーリング手法と比較した結果、明確な優位性が確認されました。逐次スケーリング手法（自己精緻化）に対しては、全タスクで一貫した改善を示し、多様な候補から学習することの価値が実証されました。

並列スケーリング手法との比較では、多数決投票がSuperGPQAで特に効果的であった以外、全タスクでRSAが優位性を示しました。これは多選択形式の特性によるものと分析されています。リジェクションサンプリングに対しても計算予算を同等にした条件で一貫した改善が確認されました。

単一ステップ自己集約（T=1のRSA相当）との比較では、再帰的集約の利点が明確に示され、反復的改善プロセスの重要性が確認されました。これらの結果から、RSAが既存の逐次・並列手法の利点を効果的に組み合わせた優れたハイブリッドアプローチであることが実証されています。

4. 実用性評価

4.1 実装の容易性

RSAは実装が簡潔で、既存のLLM推論パイプラインにシームレスに統合可能です。複雑な足場や外部依存関係を必要とせず、標準的な言語モデル推論機能のみで実現できます。

アルゴリズムの実装はPythonで200行程度のコードで実現でき、研究者や開発者が容易に導入できます。集約プロンプトも比較的シンプルで、タスク固有の微調整なしに幅広い領域で効果を発揮します。実装コードがGitHubで公開されており、再現性と普及を促進しています。

推論設定も標準的で、vLLMフレームワークを使用してtemperature=1.0、top_p=1.0などのデフォルト設定で実行可能です。特別なハードウェア要件もなく、一般的なGPU環境で動作します。

4.2 計算効率

RSAの計算効率は優れており、集団サイズNと反復回数Tの積で決まる計算予算内で動作します。メモリ使用量は並列推論により効率的に活用され、逐次手法に比べてGPUメモリの利用効率が向上します。

実験における設定（N=16、T=10、K=4）では160回の推論呼び出しが必要ですが、これは多数決投票やリジェクションサンプリングと同等の計算予算です。しかし、RSAは単純な選択ではなく候補の改善を行うため、同じ計算予算でより高い性能を実現します。

計算時間は並列実行により逐次手法よりも短縮され、実用的な推論時間を維持しています。レスポンス長も適切に制御されており（8192-32768トークン、モデルタイプに応じて調整）、過度な計算負荷を避けています。

4.3 応用可能性

RSAの応用可能性は多岐にわたり、特に複雑な推論を要求する領域での効果が期待されます。数学的問題解決、コード生成、論理的推論、計画立案などの分野で実用的な改善が見込まれます。

教育分野では、学生の解答から部分的に正しい要素を統合した改善案の提示に活用できます。ソフトウェア開発では、複数のコード候補から最適解を生成する支援ツールとして機能します。研究分野では、複数のアプローチを統合した包括的な分析手法として利用可能です。

集約認識強化学習により、特定ドメインでの性能をさらに向上させることができ、実世界アプリケーションでの実用性が高まります。また、異なるサイズやアーキテクチャのモデルに適用可能で、リソース制約に応じた柔軟な展開が可能です。

5. まとめと所感

5.1 論文の意義

この論文はテスト時スケーリング分野において重要な理論的・実用的貢献を成し遂げています。従来の逐次・並列アプローチの限界を克服し、両者の利点を効果的に統合した新しいパラダイムを提示しました。

理論的には、推論プロセスを進化的アルゴリズムの観点から捉え直し、候補解の集団進化という新しい枠組みを確立しました。この視点は複数候補からの学習というアイデアを体系化し、将来の研究に重要な基盤を提供しています。

実用的には、外部検証器や複雑な構造を必要としない汎用的手法を実現し、実世界でのテスト時スケーリングの普及を促進しています。小規模モデルが大規模モデルに匹敵する性能を達成できることを示し、計算効率の観点からも重要な示唆を提供しています。

方法論的には、集約認識強化学習により訓練時と推論時の整合性問題を解決し、テスト時スケーリング手法の性能向上において新しい方向性を示しました。

5.2 今後の展望

技術的発展の方向性として、より高度な集約戦略の開発が期待されます。現在のシンプルなプロンプトベース集約から、学習された集約関数や構造化された組み合わせ手法への発展が考えられます。

集約認識訓練の拡張として、マルチステップ強化学習によるエンドツーエンドRSA手順の訓練や、より洗練された報酬設計による性能向上が有望です。また、自己検証機能の統合により、低品質候補のフィルタリングを通じた明示的適応度関数の導入も興味深い方向性です。

応用面では、RSAの他のテスト時スケーリング手法との組み合わせや、特定ドメインへの特化による性能向上が期待されます。特に、科学研究、創薬、工学設計などの専門分野での活用可能性が高く評価されます。

長期的には、この研究で示された進化的推論アプローチが、より一般的な人工知能システムの推論機構設計において重要な役割を果たすことが期待されます。複数の視点や仮説を統合する能力は、人間の思考プロセスにより近い柔軟で堅牢な推論システムの実現に寄与するでしょう。