The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

著者著者多数（AAI所属）

所属 AAI

投稿日 2025年7月18日

カテゴリ cs.AI, cs.LG

arXiv 2507.13332v1 ↗

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

基本情報

arXiv ID: 2507.13332v1 (https://arxiv.org/abs/2507.13332v1)
著者: 著者多数（AAI所属）
所属: AAI
投稿日: 2025年7月18日
カテゴリ: cs.AI, cs.LG

簡単に説明すると

この論文は、大規模言語モデル（LLM）の長さ汎化能力を向上させるための新しい手法「TAIL（Turing Machine Imitation Learning）」を提案しています。チューリング機械の実行プロセスを模倣することで、訓練時より長い系列の問題を解決できる汎用的な推論構造を実現します。18個のタスクで評価した結果、DeepSeek-R1を上回る性能を達成しました。

1. 研究概要

1.1 背景と動機

現在のLLMは、訓練時に見た系列長より長い入力に対して推論する「長さ汎化」で苦戦しています。Chain-of-Thought（CoT）技術によって複雑な問題解決能力は向上しましたが、長い系列への汎化は依然として課題です。既存手法は特定のタスクに特化しており、汎用性に欠けるという問題があります。

本研究は、多くの推論タスクが「計算可能問題」であることに着目しました。計算可能問題とは、アルゴリズムで解ける問題を指します。Church-Turing仮説によれば、任意の計算可能問題はチューリング機械で解けます。この洞察から、LLMにチューリング機械の実行プロセスを模倣させるアプローチを提案しています。

1.2 主要な貢献

本研究の主要な貢献は次の3点です。

第一に、チューリング機械の実行を模倣する「TAIL」フレームワークを提案しました。3つのコアモジュール（Linear Expansion、Atomic State、Tape Review）により、汎用的な長さ汎化を実現します。

第二に、8つのアルゴリズムパラダイムにまたがる18タスクの挑戦的なデータセットを構築しました。従来研究より難易度が高く、長さ汎化の評価に適しています。

第三に、Qwen2.5-7BをTAILで微調整した結果、長い系列でも高い精度を維持し、DeepSeek-R1を多くのタスクで上回ることを実証しました。

2. 提案手法

2.1 手法の概要

TAILは、LLMの推論プロセスをチューリング機械の実行にアラインする手法です。チューリング機械は、無限長のテープ、読み書きヘッド、状態遷移表から構成されます。各状態で、ヘッドはテープから記号を読み、新しい記号を書き、次の位置に移動します。

TAILは、この実行プロセスを模倣する3つのコアモジュールを持ちます。

Linear Expansion：推論ステップの線形展開
Atomic State：最小単位への分解
Tape Review：明示的なメモリ読み出し

2.2 技術的詳細

Linear Expansionは、ループなどの複雑な制御構造を線形な状態列に展開します。これにより、ショートカット学習を防ぎ、完全な推論プロセスを保証します。チューリング機械の状態遷移q1→q2→...→qnに対応します。

Atomic Stateは、各推論ステップを最小単位に分解します。各状態は、オペランド取得（Tape Review経由）、基本演算、論理制御から構成されます。RASP-L仮説に基づき、Transformerが直接解ける単純な問題に分解します。

Tape Reviewは、現在のステップで必要なオペランドを明示的に出力します。自己回帰モデルは既存トークンを修正できないため、コンテキストが長くなるにつれ、動的で長距離のデータアクセスが困難になります。明示的な出力により、局所的な注意パターンを形成できます。

2.3 新規性

既存手法との主な違いは以下の通りです。

第一に、汎用性です。Index HintやReversed Formatなどの既存手法は特定タスク向けですが、TAILは計算可能問題全般に適用可能です。

第二に、理論的基盤です。Church-Turing仮説に基づき、チューリング機械の実行を模倣することで、原理的に任意の計算可能問題を解けます。

第三に、実効性です。最小限のCoTデータ（思考スタイルを含まない）でも長さ汎化を実現し、コアモジュールの重要性を実証しました。

3. 実験結果

3.1 実験設定

8つのアルゴリズムパラダイムから18タスクを選択しました。シミュレーション、再帰、反復、貪欲法、列挙、動的計画法、分割統治法、バックトラッキングを含みます。各タスクで、短（S）、中（M）、長（L）の3つの長さ範囲を定義し、Sで訓練してS、M、Lで評価しました。

Qwen2.5-7Bを基本モデルとして使用し、100,000個の訓練サンプルで微調整しました。評価は、zero-shot設定でpass@1ラベル精度を測定しました。

3.2 主要な結果

TAILで微調整したモデルは、18タスク中多くで長さ汎化を実現しました。Compare Numbers、Bubble Sort、Any Substringなどのタスクでは、長い系列でもほぼ飽和性能に達しました。

DeepSeek-R1との比較では、多くのタスクでTAILが上回りました。DeepSeek-R1は長い系列で特定の値を試行してショートカットを利用する傾向がありましたが、TAILは構造化された推論プロセスを維持しました。

大数の加算タスクで、Index HintとReversed Formatと比較しました。小数点を含む複雑な設定で、TAILは長い系列で大幅に高い精度を達成しました。既存手法は整数加算では成功していましたが、複雑性の増加に対応できませんでした。

3.3 既存手法との比較

長さ汎化の活性化現象を発見しました。訓練データに少量の長い系列（8:1:1の比率）を加えるだけで、長い系列での性能が急速に飽和しました。この活性化効果により、不均衡なデータ比率で訓練コストを削減できます。

アブレーション研究では、各コアモジュールの必要性を確認しました。どのモジュールを除去しても長さ汎化性能が大幅に低下しました。タスクによって各モジュールの重要度は異なりますが、TAILは3つすべてを統合することで多様な推論構造をサポートします。

4. 実用性評価

4.1 実装の容易性

TAILの実装は比較的簡単です。既存のアルゴリズムをTAIL形式のCoTに変換するプロセスは以下の通りです。

各アルゴリズムステップをAtomic Stateとして扱う
アルゴリズムプロセスをLinear Expansionとして展開
現在のステップの入力をTape Reviewとして出力

最小限のCoTデータ（コアモジュールのみ）でも効果的であることが実証されており、複雑な思考スタイルは不要です。

4.2 計算効率

推論時のCoT長が増加するという制限があります。Atomic Stateは推論を最小単位に分解し、Tape Reviewは中間結果を明示的に出力し、Linear Expansionはタスクの時間複雑度に比例してCoT長を増加させます。

例えば、順列組み合わせタスクでは、n!個の解を列挙する必要があり、実行可能な問題サイズはS=[1,3]、M=[4,6]、L=[7,10]に制限されます。

4.3 応用可能性

TAILの応用可能性は広範です。

第一に、計算可能問題全般に適用可能です。アルゴリズムで解ける問題であれば、TAILフレームワークで長さ汎化を実現できます。

第二に、合成データによる学習の新しい方向性を示唆します。チューリング機械の概念が長さ汎化に不可欠であることを実証し、思考スタイルは必須でないことを明らかにしました。

第三に、注意機構の分析により、モデルがチューリング機械の動作を学習していることを確認しました。書き込み操作時の注意が同一状態内のフェッチされたオペランドに集中しています。

5. まとめと所感

5.1 論文の意義

この研究は、LLMの長さ汎化問題に対する原理的なアプローチを提供する重要な成果です。チューリング機械の実行を模倣するという理論的に健全なアイデアにより、タスク特化型の手法を超えた汎用的な解決策を実現しました。

特に、最小限のコアモジュールだけで長さ汎化を実現できることを示した点は重要です。これは、複雑な思考スタイルや強化学習が必須でないことを意味し、より効率的なアプローチの可能性を示唆しています。

また、注意機構の可視化により、モデルが実際にチューリング機械的な動作を学習していることを確認できた点も興味深い発見です。

5.2 今後の展望

今後の課題として、以下の方向性が考えられます。

第一に、タスク間汎化の改善です。現在は単一タスクの訓練が他のタスクに転移しない問題があり、これは長さ汎化と組み合わせ汎化のギャップを示しています。

第二に、推論長の制限への対処です。PENCILメカニズムのような手法と組み合わせることで、過度に長いCoTを圧縮し、より複雑な問題に対応できる可能性があります。

第三に、より大規模なモデルへの適用です。7Bモデルで実証された手法が、より大きなモデルでどのような効果を示すか興味深い研究課題です。