GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

著者 Y. Zhang / S. Jiang / M. Zhao / Y. Li / Y. Fan / X. Wu / Q. Chen

所属 Harbin Institute of Technology, Shenzhen

投稿日 2025年08月09日

カテゴリ cs.CL, cs.AI, cs.LG

arXiv 2508.04676v1 ↗

GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

基本情報

arXiv ID: 2508.04676v1 (https://arxiv.org/abs/2508.04676)
著者: Y. Zhang / S. Jiang / M. Zhao / Y. Li / Y. Fan / X. Wu / Q. Chen
(Harbin Institute of Technology Shenzhen / Ysstech Info-Tech Co.,Ltd)
所属: Harbin Institute of Technology, Shenzhen
投稿日: 2025年08月09日
カテゴリ: cs.CL, cs.AI, cs.LG

簡単に説明すると

本論文は、大規模言語モデル（LLM）の継続学習における破滅的な忘却問題を解決する新しいフレームワーク「GeRe」を提案しています。
GeReは、わずか1,000個の固定された汎用リプレイサンプルを使用することで、LLMの一般能力を保持しながら、逐次的なタスクで良好な性能を維持できます。
重要な技術的貢献として、ニューラル活性化状態に基づく閾値ベースマージン（TM）損失を導入しています。
これにより、リプレイ学習中の活性化状態の一貫性を維持できます。

従来手法では、各タスクごとに特定のリプレイサンプルを収集する必要がありましたが、GeReは事前に収集した汎用サンプルを全てのタスクで再利用できます。
実験では、Llama-3.1-8Bを用いて15の多様なダウンストリームタスクで評価しました。
結果、GeRe+TMは高いMMLUスコア（一般能力の指標）を維持しつつ、ダウンストリームタスクでも良好な性能を示しました。

1. 研究概要

1.1 背景と動機

LLMの継続学習は、人工汎用知能（AGI）の実現に向けて重要な能力です。
しかし、さまざまなドメインでLLMを逐次的にファインチューニングすると、破滅的忘却が発生します。
これは以下の2つの問題として現れます。

一般的な能力（世界知識や基本的な指示追従能力）の著しい低下
以前に学習したタスクでの急激な性能低下

現在の実践者は複雑な継続学習ソリューションを使用しますが、LLMには単純かつ安定したアプローチが求められます。
従来のリプレイ手法では、増え続けるダウンストリームタスクに対応するため、労力をかけてリプレイサンプルを収集する必要がありました。

本研究では、以下の2つの重要な研究課題に取り組みます。

Q1: 固定されたリプレイサンプルセットを一度だけ用意して、全てのタスクで再利用できるか
Q2: 汎用リプレイサンプルだけで、タスク固有のリプレイなしに継続学習を促進できるか

1.2 主要な貢献

本研究の主要な貢献は以下の通りです。

GeReフレームワークの提案：事前定義された汎用リプレイサンプルの固定セットを、継続学習プロセス全体で再利用可能であることを実証
閾値ベースマージン（TM）損失の導入：従来のL1/L2特徴マッチングやKL蒸留よりも優れた新しい活性化の状態制約
実用的な影響：タスク固有のリプレイサンプルを収集する必要がない、単純で高速な手法の提供
包括的な実験：15の多様なタスクでの評価により、一般能力の保持とタスク性能の向上を同時に達成することを実証

2. 提案手法

2.1 手法の概要

GeReフレームワークは、以下の主要コンポーネントから構成されます。

汎用リプレイサンプル: SlimPajamaコーパスから1,000個の固定サンプルを事前に収集
活性化の状態制約: ニューラル活性化を3つの状態（正、負、非活性）に分類し、TM損失で最適化
バッチ挿入（BI）: 各バッチに固定割合のリプレイサンプルを確実に含める
動的重み調整: TM損失とCE損失を自動的にバランス調整

2.2 技術的詳細

蒸留活性化の状態定義

ニューラル活性化を正、負、非活性の3つの状態に分類
ガウス分布（μ ± σ）を使用して閾値を決定
約68%の活性化が非活性状態（スパース表現）

閾値ベースマージン（TM）損失

L_TM = Σ_i max(0, |a_i - â_i| - m)

ここで、m は活性化の閾値周辺における許容マージンです。
TM損失は、L1/L2損失よりも柔軟でありながら、単純なリプレイよりも情報量が豊富です。

実装の詳細

バッチ挿入により、各バッチに一定割合のリプレイサンプルを含める
動的重み調整により、異なる損失項のバランスを自動調整
フルパラメータとLoRAの両方の設定で実装可能

2.3 新規性

本手法の新規性は以下の点にあります。

固定汎用サンプルの再利用: 1回収集したサンプルを全タスクで永続的に使用
活性化状態ベースの制約: 単純な特徴マッチングを超えた、より効果的な知識保持メカニズム
タスク非依存性: タスク固有のリプレイサンプル収集が不要
実用性と効率性: 複雑な継続学習アルゴリズムを必要としない単純な実装

3. 実験結果

3.1 実験設定

ベースモデル: Llama-3.1-8B
評価タスク: 15の多様なダウンストリームタスク（GLUE、SuperGLUEベンチマークを含む）
リプレイサンプル: SlimPajamaから1,000個をランダム選択
評価設定: フルパラメータとLoRA両方でのファインチューニング

3.2 主要な結果

性能指標の比較

MMLUスコア（一般能力）: GeRe+TMが優れた保持率を達成
ダウンストリームタスクの平均性能（AP）: 同様に改善
両指標のF1平均: 全体的に最良の性能

フルパラメータ設定での比較結果

ベースライン（リプレイなし）: 性能が低い
バニラリプレイ（Baseline^R）: MMLUで+12%の改善
Baseline^R+KL: わずかな向上
Baseline^R+L1/L2: KLより良好
Baseline^R+TM（GeRe）: 全指標で最高性能

3.3 既存手法との比較

ロバスト性の分析

学習率ロバスト性: フルパラメータで3倍、LoRAで10倍の学習率増加でも性能を維持
最適化ランドスケープ: 関心領域で最も平坦な等高線を示し、過学習への耐性を示唆
フルパラメータとLoRA両方の設定で良好に動作

他の継続学習手法との比較

タスク固有リプレイ: 収集コストが高く、スケーラビリティに課題
正則化ベース手法: LLMの大規模パラメータでは効果が限定的
アーキテクチャベース手法: 固定アーキテクチャのLLMには適用困難

4. 実用性評価

4.1 実装の容易性

GeReフレームワークは実装が非常に簡単です。
必要なのは、事前に収集した1,000個の汎用テキストサンプルと、TM損失の追加実装のみです。
既存のファインチューニングパイプラインに最小限の変更で統合できます。

4.2 計算効率

リプレイサンプル数が固定（1,000個）であるため、計算オーバーヘッドは最小限です。
タスク数が増えても、リプレイに必要な計算量は増加しません。
動的重み調整により、ハイパーパラメータチューニングの必要性も削減されます。

4.3 応用可能性

GeReは以下の場面で特に有用です。

継続的にドメイン適応が必要なLLMアプリケーション
リソースが限られた環境での継続学習
プライバシー制約により過去のタスクデータを保持できない場合
迅速なプロトタイピングと実験が必要な研究開発

5. まとめと所感

5.1 論文の意義

本論文は、LLMの継続学習における長年の課題に対して、驚くほどシンプルで効果的な解決策を提示しています。
わずか1,000個の汎用サンプルで破滅的な忘却を防げるという発見は、直感とは異なるものの、実験により強固な証拠が得られました。

特に重要なのは、一般能力の保持がダウンストリームタスクの性能向上にも寄与するという発見です。
これは、LLMの知識構造に関する新しい洞察を提供しています。

5.2 今後の展望

著者らは将来の研究方向として以下を挙げています。

より大規模なLLM（70B以上）での検証
最適なリプレイサンプル数と選択戦略の探求
マルチモーダルLLMへの拡張

また、本手法の理論的な解析や、なぜ汎用サンプルが効果的なのかのメカニズム解明も重要な研究課題です。
実用面では、GeReフレームワークを用いた商用LLMの継続的な改善が期待されます。