Differential Mamba

著者 Nadav Schneider・Itamar Zimerman・Eliya Nachmani

所属 Ben-Gurion University・IAEC・Tel-Aviv University・IBM Research

投稿日 2025年07月08日

カテゴリ cs.LG, cs.CL

arXiv 2507.06204v1 ↗

Differential Mamba

基本情報

arXiv ID: 2507.06204v1 (https://arxiv.org/abs/2507.06204)
著者: Nadav Schneider・Itamar Zimerman・Eliya Nachmani
所属: Ben-Gurion University・IAEC・Tel-Aviv University・IBM Research
投稿日: 2025年07月08日
カテゴリ: cs.LG, cs.CL

簡単に説明すると

Differential Mambaは、最近のMambaアーキテクチャに差分設計（differential design）を適用した新しい手法です。
TransformerやRNNなどの系列モデルは、無関係なコンテキストに過剰に注意を向ける傾向があり、これが中間表現のノイズを生み出します。
この問題を解決するため、Transformerで成功した差分設計の手法をMambaに適用しました。
ただし、単純な適用では不十分であることが判明し、慎重なアーキテクチャの修正が必要でした。

GitHubリポジトリ: https://github.com/NadavSc/Diff-Mamba

1. 研究概要

1.1 背景と動機

深層系列モデリングのための強化されたアーキテクチャの設計は、機械学習コミュニティにおける重要なタスクです。
系列モデルは、自然言語処理におけるChatGPTやコンピュータビジョンにおけるStable Diffusionなどの画期的な成果を推進しています。
しかし、これらのモデルは2つの主要な課題に直面しています。
効率性はTransformerアーキテクチャの系列長に対する二乗の時間複雑度によって制約されています。
頑健性は不整合性、信頼性の問題、ハルシネーションによって妨げられています。

Mambaは選択的な状態空間層（S6）に基づくアーキテクチャで、サブ二乗複雑度を導入しながら系列長に依存しない自己回帰デコーディングを可能にします。
最近の研究では、Mambaベースのアーキテクチャが比較的大規模なスケールでTransformerの最先端性能に匹敵するか、それを上回ることさえ示されています。

1.2 主要な貢献

本研究は以下の主要な貢献をしています。

Mambaに対する新しい差分メカニズムの導入
単純な差分設計の適用では不十分であることを示し、Mambaの特性に合わせたアーキテクチャ修正を提案
言語モデリングベンチマークでの実証的検証
改善された検索能力の実証
設計選択を正当化する広範なアブレーション研究
機械的な解釈可能性ツールを用いた内部表現の分析

2. 提案手法

2.1 手法の概要

Differential Mambaは、Mambaブロック全体に差分設計を適用します。
基本的なアイデアは、2つのMambaブロックの出力を差し引くことで、無関係なコンテキストへの過剰な注意配分を減らすことです。

基本的な形式は以下の通りです。
Diff-Mamba(X) = Mamba₁(X) - λ Mamba₂(X)

ここで、λは安定性を確保し、訓練ダイナミクスを改善するために独自にパラメータ化されます。

2.2 技術的詳細

Diff S6
最初のアプローチとして、S6層レベルで差分を適用するDiff S6を検討しました。
しかし、S6は正規化されていない非有界な出力を生成するため、追加の正規化ステップが必要となりました。

Diff-Mamba
Diff S6の性能が不十分だったため、Mambaブロック全体を差分設計の対象としました。
MambaブロックはS6層だけでなく、活性化関数、正規化層、畳み込み層、ゲートブランチを含む、より豊かで表現力のある暗黙的な注意行列を持ちます。

正規化の重要性
差分操作の前に追加の正規化サブレイヤーを導入することで、性能が平均で約1.5%向上しました。
これにより、差分される要素が同じスケールで比較されることが保証されます。

2.3 新規性

既存のMamba手法と比較して、Diff-Mambaには以下の新規性があります。

Mambaへの差分設計の初めての適用: Transformerで成功した手法をMambaアーキテクチャに適応
適応的な設計変更: 単純な適用では不十分であることを示し、Mamba特有の課題に対処
ブロックレベルでの差分: S6層だけでなく、Mambaブロック全体で差分を実行
ノイズ削減の実証: 中間表現のノイズが削減されることを機械的な解釈可能性ツールで実証

3. 実験結果

3.1 実験設定

実験は以下の設定で実施されました。

言語モデリング実験

データセット: WikiText-103、Text8、Enwik8
モデルサイズ: 6層（127M/167Mパラメータ）、12層（255M/259Mパラメータ）
訓練: 40エポック、最大系列長512
GPU: L40s

検索タスク実験

データセット: BABILongベンチマーク（5つの検索タスク）
モデル: 事前訓練済みMamba 370Mの最後の12層をDiff-Mambaに置換
評価: ゼロショットおよびファインチューニング設定

3.2 主要な結果

言語モデリング結果
Diff-Mambaは全ての評価環境でMambaを上回りました。

12層モデルでは以下の改善が見られました。

WikiText-103: 0.4パープレキシティ改善（20.413→20.012）
Text8: 0.046 bpb改善（2.525→2.479）
Enwik8: 0.041 bpb改善（2.422→2.381）

6層モデルでは以下の改善が見られました。

WikiText-103: 0.201パープレキシティ改善
Text8: 0.020 bpb改善
Enwik8: 0.007 bpb改善

検索タスク結果
Diff-Mambaは特に長いコンテキストでMambaを一貫して上回りました。

BABILongファインチューニング: 最大2.11倍の性能向上
ゼロショット評価: 最大3.5倍の性能向上

3.3 既存手法との比較

アブレーション研究により、以下の設計選択が正当化されました。

Diff-MambaはDiff-S6よりも優れた性能を示す
正規化の追加により、Diff-Mambaで0.015、Diff-S6で0.008のパープレキシティ改善
λの再パラメータ化は性能向上に寄与しない

機械的な解釈可能性の分析では、Diff-Mambaが標準的なMambaよりも高い信号対雑音比を示しました。
特に初期層では、目的のトークンの予測確率が数桁高くなっています。

4. 実用性評価

4.1 実装の容易性

Diff-Mambaの実装は比較的単純です。
既存のMambaブロックに対して、追加のMambaブロックと差分操作、正規化層を追加するだけで実現できます。
公開されているGitHubリポジトリにより、実装の再現が容易になっています。

4.2 計算効率

Diff-Mambaは2つのMambaブロックを使用するため、計算コストは約2倍になります。
しかし、Mambaの並列実装により、推論速度は約1.8倍の低下に留まっています。
パラメータ数の増加は最小限（127M→129M、255M→259M）に抑えられています。

4.3 応用可能性

Diff-Mambaは以下の分野での応用が期待されます。

大規模言語モデル（ハルシネーション削減と長文脈の処理能力の向上）
推論モデル（OpenAI O1やDeepSeek R1のようなテスト時スケーリングモデルへの適用）
検索拡張生成/RAG（改善された検索能力による性能向上）
他のドメイン（コンピュータビジョン、グラフモデリング、時系列解析への拡張/今後の研究課題）

5. まとめと所感

5.1 論文の意義

本論文は、差分設計という成功した手法をMambaアーキテクチャに適用する初めての試みです。
単純な適用では不十分であることを示し、Mambaの特性に合わせた修正を加えることで性能向上を実現しました。

特に重要なのは、Mambaベースのモデルが無関係なコンテキストへの過剰な注意配分問題をより強く持つという仮説を提示し、実証したことです。
これは、Mambaがsoftmaxフリーアーキテクチャであり、状態ベースモデルとして局所的に動作することに起因します。

機械的な解釈可能性ツールを用いた分析により、差分設計が実際に中間表現のノイズを削減することを実証したことも重要な貢献です。

5.2 今後の展望

論文では以下の将来の研究方向が示唆されています。

理論的枠組みの開発: なぜ差分設計がTransformerやMambaベースのLLMを改善するのかの厳密な理論的説明
大規模実験: 学術予算の制約により小規模から中規模の実験に限定されているため、より大規模な検証が必要
他ドメインへの拡張: NLPタスク以外（コンピュータビジョン、グラフモデリング、時系列解析など）への適用
アーキテクチャの最適化: 計算コストを削減した差分設計の実装方法の探求

一方で、現在のシステムには以下のような制限があります。

計算コストの増加（約2倍）
理論的な根拠の不足
大規模モデルでの検証不足
NLPタスクに限定された評価

本研究は、高速なアーキテクチャの頑健性を向上させる重要な一歩であり、今後の発展が期待されます。