VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

著者 Senqiao Yang・Junyi Li・Xin Lai・Bei Yu・Hengshuang Zhao・Jiaya Jia

所属 CUHK, HKU, HKUST

投稿日 2025年07月18日

カテゴリ cs.CV, cs.LG

arXiv 2507.13348v1 ↗

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

基本情報

arXiv ID: 2507.13348v1 (https://arxiv.org/abs/2507.13348v1)
著者: Senqiao Yang・Junyi Li・Xin Lai・Bei Yu・Hengshuang Zhao・Jiaya Jia
所属: CUHK, HKU, HKUST
投稿日: 2025年07月18日
カテゴリ: cs.CV, cs.LG

簡単に説明すると

VisionThinkは、画像を最初は低解像度で処理し、必要な場合のみ高解像度画像を要求する賢い視覚言語モデル（VLM）です。強化学習を使って、質問への回答で高解像度が本当に必要かどうかを自動的に判断します。

OCR関連のタスクのように詳細な視覚情報が必要な場合は高解像度を要求し、一般的な質問では低解像度で直接回答することで、精度を保ちながら最大100%の処理速度向上を実現しています。

プロジェクトのコードとモデルは以下で公開されています：
https://github.com/dvlab-research/VisionThink

1. 研究概要

1.1 背景と動機

視覚言語モデル（VLM）の性能向上に伴い、視覚トークンの消費量が指数関数的に増加しています。例えば、スマートフォンで撮影した2048×1024の写真は、LLaVA 1.5では576トークンでしたが、Qwen2.5-VLでは2,678トークンも必要となっています。

しかし、著者らの実験では、多くの実世界のシナリオで画像解像度を1/4に削減（視覚トークンを75%削減）しても性能への影響は最小限であることが判明しました。一方で、詳細な理解とOCR機能を必要とするChartQAやOCRBenchでは、視覚トークンの削減により性能が30%以上低下します。

この観察から、ほとんどの実世界の質問は高解像度画像を必要とせず、OCR関連タスクの小さなサブセットのみが詳細な入力を必要とすることがわかりました。この特性を活用することで、効率化の大きな可能性があります。

1.2 主要な貢献

本研究の主要な貢献として、以下の点が挙げられます。

新しい効率的VLMパラダイム「VisionThink」の提案により、モデルの推論能力を活用し、低解像度画像から始めて必要時のみ高解像度画像を要求する。
一般的なVQAタスクへの強化学習の適用では、LLM-as-Judge戦略の提案により、多様で複雑な一般VQAタスクでの強化学習を可能にした。
適応的な解像度選択メカニズムでは、慎重に設計された報酬関数により、高解像度入力の必要性をモデルが正確に判断できるようにした。
実用性の高い効率化として、OCRベンチマークでの強力な性能を維持しながら、非OCRベンチマークで最大100%の高速化を実現した。

2. 提案手法

2.1 手法の概要

VisionThinkは、まず低解像度画像を処理して計算コストを最小化します。ダウンサンプリングされた画像の情報が不十分と判断した場合、元の高解像度入力を要求します。

この戦略により、理想的には高い性能を維持しながら計算負荷を75%削減できます。モデルは特別なトークンを出力することで高解像度画像の必要性を通知し、マルチターン対話として処理されます。

2.2 技術的詳細

LLM-as-Judge戦略：一般的なVQAの多様性と複雑性により、従来のルールベースの強化学習アルゴリズムは直接適用できません。そこで、外部のLLMを評価者として使用し、モデルの出力の正確性を人間に近い柔軟な方法で評価します。評価は純粋にテキストで行われ、モデルの回答と正解を比較します。

マルチターンGRPO：元のGRPO（Group Relative Policy Optimization）アルゴリズムをマルチターン設定に拡張しました。ユーザーからのテキストと画像トークンをマスクし、VLMが生成したマルチターン出力トークンのみに基づいて最適化を行います。

報酬設計：報酬関数は3つの要素で構成されています。

精度報酬として、LLM-as-Judgeを使用し、正解なら1、不正解なら0とする。
フォーマット報酬では、推論プロセスが「」タグで囲まれ、関数呼び出しがJSON形式に従っているかを評価する（最大0.5点）。
ペナルティ制御では、低解像度で正解する確率が20%未満の場合は直接回答に0.1のペナルティを適用する。20%以上の場合は高解像度要求に0.1のペナルティを適用する。

2.3 新規性

既存の効率的VLM手法は、フル画像を処理してから冗長なトークンを破棄します。一方VisionThinkは圧縮された視覚トークンを直接入力し、情報不足時にモデルが高解像度画像を要求できます。

また、固定された圧縮率や閾値を使用する既存手法とは異なり、VisionThinkはケースバイケースでトークンを圧縮するかどうかを自律的に決定します。これにより、OCR関連タスクでの詳細な視覚理解能力を維持しながら、より単純なタスクでは大幅な視覚トークンの節約を実現しています。

3. 実験結果

3.1 実験設定

Qwen2.5-VL-7B-Instructをベースモデルとして使用し、以下のベンチマークで評価しました。

OCR関連として、ChartQA、OCRBench、MathVistaを使用した。
一般VQAとして、MMVet、RealWorldQA、MathVerse、MME、MMBench、POPE、DocVQAを使用した。

訓練には、高解像度画像を必要とする10,000サンプルと必要としない10,000サンプルを使用しました。

3.2 主要な結果

VisionThinkは、効率性を持ちながら一般VQAタスクで同等またはそれ以上の性能を達成しました。具体的には以下の通りです。

MathVerseで48.0（基本モデルから3.7%向上）を記録した。
MMVetで67.1（8.9%向上）を記録した。
MMEで2400を達成し、すべてのクローズドソースモデルを上回った。

推論時間の面では、DocVQAベンチマークでQwenRLの2倍以上高速で、MMEとPOPEでは約1/3の推論時間を実現しました。

3.3 既存手法との比較

FastVやSparseVLMなどの従来の効率的VLM手法と比較して、VisionThinkは9つのベンチマークの平均で優れた性能を示しました。特にOCR関連のベンチマークでは以下の結果が得られました。

ChartQAでFastVを9.0%上回った。
OCRBenchでSparseVLMを8.3%上回った。

また、VisionThinkは質問と画像の内容に基づいてトークンを削減するかどうかを自律的に決定できるため、より柔軟で効果的です。

4. 実用性評価

4.1 実装の容易性

VisionThinkは既存のVLMアーキテクチャを基盤とし、強化学習による訓練を追加するだけで実装可能です。veRLフレームワークを使用し、vLLMフレームワークでの推論も可能で、既存のインフラストラクチャとの互換性が高いです。

また、提案されたパラダイムは既存の効率的VLM手法と統合可能で、より高度なトークン圧縮技術を採用することで、さらなる効率化が期待できます。

4.2 計算効率

ChartQAやOCRBenchでは、低解像度で正しく答えられない質問が多いことをモデルが識別します。そのため自律的に高解像度画像を要求し、ベースラインよりも時間がかかります。

しかし、そのような強くOCRに依存するベンチマークは比較的まれであり、VisionThinkの全体的な効率は高いままです。実際のアプリケーションでは、ほとんどの質問で大幅な高速化が期待できます。

4.3 応用可能性

VisionThinkの適応的な解像度選択メカニズムは、様々な実世界のアプリケーションに適用可能です。具体的な応用例を以下に示します。

チャットボットやバーチャルアシスタントでは、一般的な質問には高速に応答し、詳細な文書分析が必要な場合のみ高解像度処理を行う。
モバイルアプリケーションでは、バッテリー消費を抑えながら、OCRや詳細分析タスクでのみ高品質な視覚理解を提供する。
大規模な画像処理システムでは、処理コストを最適化しながら、精度を維持する。

5. まとめと所感

5.1 論文の意義

VisionThinkは、視覚言語モデルの効率化に対する新しいアプローチを提示しています。固定された圧縮率に依存する従来の手法とは異なり、モデル自身が各サンプルの特性に基づいて最適な解像度を選択するという点で画期的です。

強化学習を一般的なVQAタスクに適用するためのLLM-as-Judge戦略も重要な貢献であり、これにより視覚的な数学の推論を超えて、より広範なVQAタスクでの強化学習の可能性を示しました。

また、実用性の観点から見ても、精度を犠牲にすることなく最大100%の効率化を実現している点は高く評価できます。特に、実世界のアプリケーションでは、ほとんどの質問が高解像度を必要としないという洞察は、今後のVLM開発にとって重要な指針となるでしょう。

5.2 今後の展望

現在の実装では2倍の解像度アップスケーリングと最大2ターンの会話に焦点を当てていますが、今後は以下の拡張が期待されます。

柔軟な解像度アップスケーリング（2倍以外の倍率）への対応を実現する。
クロッピングなどの他の視覚ツールの統合を進める。
5ターン以上のマルチターン画像ツール呼び出しによる複雑な視覚問題の解決を可能にする。

さらに、より高度なトークン圧縮技術との統合により、モデルの直接回答精度を向上させ、全体的な効率をさらに高めることができるでしょう。

この研究は、推論視覚言語モデルの計算コストを削減する分野での更なる研究を促すものです。特にモデルをよりスマートで人間らしくする方向での発展が期待されます。一般性、強力さ、計算コスト効率を兼ね備えた視覚言語モデルの構築に向けた重要な一歩となっています。