LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

著者
所属
投稿日
カテゴリ
arXiv

LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

基本情報

arXiv IDは2510.03232v1です。URLはhttps://arxiv.org/abs/2510.03232です。
著者は4名で構成されています。
Ci-Siang Lin、Min-Hung Chen、Yu-Yang Sheng、Yu-Chiang Frank Wangです。
所属機関は台湾国立大学の通信工学部門とNVIDIAです。
投稿日は2025年10月4日です。
カテゴリはcs.CVcs.AI、cs.LGの3つです。

簡単に説明すると

この論文は、医療画像解析やスポーツ映像理解など、専門分野でのマルチモーダル大規模言語モデル(MLLM)の適応問題を扱っています。
一般的なMLLMは通常の画像には優れた性能を示します。
しかし医療画像のような特殊な領域では性能低下が知られています。
専門分野では専門家による注釈付きデータの作成コストが非常に高いという課題があります。
LEAMLは、少量のラベル付きデータと大量の未ラベル画像を活用して、専門分野でのVQA性能を向上させる手法です。
疑似QAペア生成と選択的ニューロン蒸留という2つの段階を通じて、ドメイン適応を実現しています。

1. 研究概要

1.1 背景と動機

マルチモーダル大規模言語モデル(MLLM)は、一般的な視覚ベンチマークでは優れた性能を発揮しますが、
医療画像解析などの専門分野では著しい性能低下が観察されています。
この問題は、MLLMの事前学習データが一般的な画像に偏っており、専門分野の視覚的特徴や専門用語を
十分に学習できていないことに起因しています。

特に医療画像などの専門分野では、ラベル付きデータの作成に専門家の知識が必要であり、
1つのQAペアを作成するのに数時間を要することもあります。
また、専門分野の画像では、一般的な画像とは異なる視覚的手がかりや文脈理解が求められるため、
単純な転移学習では十分な性能向上が期待できません。

一方で、専門分野においても大量の未ラベル画像は比較的容易に収集可能です。
しかし、従来の半教師あり学習手法は分類タスクに特化されており、
VQAのように質問と回答の両方を生成する必要があるタスクには直接適用が困難でした。

1.2 主要な貢献

本研究の主要な貢献は、限られたラベル付きデータと豊富な未ラベル画像を効果的に活用する
2段階学習フレームワークLEAMLの提案です。
具体的な貢献は以下の通りです。

  • 少量のラベル付きVQAデータと大量の未ラベル画像を統合活用する2段階適応フレームワークの開発
  • 未ラベル画像から高品質な疑似QAペアを生成するPseudo QA Generation手法の提案
  • QA関連ニューロンのみを選択的に更新するSelective Neuron Distillation技術の導入
  • 消化器の内視鏡検査とスポーツVQAデータセットでの包括的な実証評価

特に注目すべきは、QAジェネレーターの学習において勾配の大きさに基づいてQA生成に重要なニューロンを特定し、これらのニューロンのみを更新することです。
この手法により計算コストを削減しながらドメイン知識習得を実現している点が重要です。

2. 提案手法

2.1 手法の概要

LEAMLは、Pseudo QA GenerationとOOD VQA Finetuningの2段階で構成されます。
第1段階では、限られたラベル付きデータを用いてQAジェネレーターを学習し、
未ラベル画像に対して疑似QAペアを生成します。
第2段階では、元のラベル付きデータと生成された疑似QAペアを組み合わせて、
最終的なVQAモデルを微調整します。

QAジェネレーターの学習には、Selective Neuron Distillationという独自の正則化手法を導入しています。
これにより、大規模MLLMから得られるキャプション情報を活用しながら、
QA生成能力に特化したパラメータ更新を実現しています。

2.2 技術的詳細

QAジェネレーターは、与えられた画像Vに対して、質問Qと回答Aを連結した形式で出力を生成します。
学習目標は以下の自己回帰的負の対数尤度として定義されます。

L_QA = Σ log p(y_i | V, y_<i)

ここで、y_iはi番目のテキストトークンを表します。

Selective Neuron Distillationでは、各パラメータθの重要度スコアを以下のように計算します。

重要度スコア = |1/|D_l| Σ ∂L_QA/∂θ|。

この重要度スコアに基づいて、top-Kのパラメータのみを更新し、
その他のパラメータは固定します。
これにより、キャプション蒸留による知識習得がQA生成能力の向上に集中されます。

2.3 新規性

従来の半教師あり学習手法との主な違いは、VQAタスクに特化した疑似ラベル生成戦略です。
分類タスクとは異なり、VQAでは質問と回答の両方を生成する必要があり、
単純なラベル予測では対応できません。

また、ニューロンレベルでの選択的更新により、汎用的な言語生成能力を保持しながら、
ドメイン特化知識のみを効率的に学習する点も新規性があります。
これは、全パラメータ更新や従来のLoRA手法とは異なるアプローチです。

3. 実験結果

3.1 実験設定

実験は2つの専門分野データセットで実施されました。
Kvasir-VQAは胃腸の内視鏡検査における医療画像データセットで、
6,500枚の内視鏡画像と36,574のQAペアを含みます。
SPORTUはスポーツ映像理解データセットで、1,701の動画クリップと
11,003のQAペアから構成されています。

実験では、訓練データの1%のみをラベル付きデータとして使用し、
残りを未ラベルデータとして扱う設定で評価しました。
ベースモデルとしてNVILA-Lite-2Bを使用し、
大規模MLLMとしてQwen2.5-VL-72B-Instructを採用しました。

3.2 主要な結果

Kvasir-VQAデータセットにおいて、LEAMLは平均精度76.7%を達成し、
LoRA微調整の62.4%、全パラメータ微調整の63.1%を大きく上回りました。
特に困難なEsophagitisカテゴリでは顕著な改善が見られました。

SPORTUデータセットでも同様の傾向が確認され、平均精度63.1%を達成しました。
特に「Hard」レベルの質問では、ベースライン手法の22.3%から46.3%への
大幅な性能向上が観察されました。

3.3 既存手法との比較

ゼロショット推論では38.3%の精度しか得られなかったNVILA-Lite-2Bが、
LEAMLによる適応後は76.7%まで向上しました。
これは、完全教師ありモデルの90.7%に対して85%の性能に相当し、
わずか1%のラベル付きデータでこの性能を実現したことは注目に値します。

従来の転移学習手法と比較して、疑似QAペア生成による改善効果が
一貫して確認されており、特に訓練データが少ない設定での効果が顕著でした。

4. 実用性評価

4.1 実装の容易性

LEAMLの実装は既存のMLLMフレームワーク上で比較的容易に実現可能です。
PyTorchを用いた実装が提供されており、標準的なGPU環境での動作が確認されています。
ただし、QAジェネレーターの学習とVQAモデルの微調整という2段階プロセスのため、
単純な微調整と比較すると実装の複雑さは増加します。

4.2 計算効率

計算コストの観点では、選択的ニューロン更新により全パラメータ更新と比較して
メモリ使用量を削減し学習時間を短縮できます。
実験では16台のNVIDIA A100 GPUを使用していますが、
より小規模な設定での動作も可能と考えられます。

疑似QAペア生成のために大規模MLLMを使用する必要があるため、
推論時のコストは従来手法より高くなる可能性があります。

4.3 応用可能性

医療画像解析とスポーツ映像理解という異なる分野での有効性が示されており、
他の専門分野への応用も期待できます。
特に、専門知識を要するラベル付けが困難で、
大量の未ラベル画像が利用可能な分野での活用が有望です。

法的文書解析、工業検査、農業画像診断など、
幅広い専門分野でのMLLM適応に応用可能と考えられます。

5. まとめと所感

5.1 論文の意義

本研究は、MLLMの専門分野適応という実用的な課題に対して、
理論的に裏付けられた解決策を提示しています。
特に、ニューロンレベルでの選択的更新という着想は独創的であり、
今後のMLLM研究に重要な示唆を与えると考えられます。

実験結果は一貫して手法の有効性を示しており、
特に限られたラベル付きデータでの大幅な性能向上は実用的価値が高いです。
2つの異なる専門分野での検証により、手法の汎用性も確認されています。

5.2 今後の展望

現在の手法では大規模MLLMによるキャプション生成が必要ですが、
軽量な蒸留手法の開発により推論時間とGPUメモリ使用量の削減が期待できます。
また、より多様な専門分野での評価により、手法の限界と適用範囲の明確化が求められます。

ニューロン選択戦略の更なる改良や、複数の専門分野にまたがる適応手法の開発も
今後の重要な研究方向として考えられます。