4KAgent: Agentic Any Image to 4K Super-Resolution

著者 Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu
所属 Texas A&M University, Stanford University, Snap Inc., CU Boulder, UT Austin, California Institute of Technology, Topaz Labs, UC Merced
投稿日 2025年07月11日
カテゴリ cs.CV

4KAgent: Agentic Any Image to 4K Super-Resolution

基本情報

  • arXiv ID: 2507.07105v1 (https://arxiv.org/abs/2507.07105)
  • 著者: Yushen Zuo, Qi Zheng, Mingyang Wu, Xinrui Jiang, Renjie Li, Jian Wang, Yide Zhang, Gengchen Mai, Lihong V. Wang, James Zou, Xiaoyu Wang, Ming-Hsuan Yang, Zhengzhong Tu
  • 所属: Texas A&M University, Stanford University, Snap Inc., CU Boulder, UT Austin, California Institute of Technology, Topaz Labs, UC Merced
  • 投稿日: 2025年07月11日
  • カテゴリ: cs.CV

簡単に説明すると

4KAgentは、どんな画像でも4K解像度(4096×4096ピクセル)まで高画質化できる、AIエージェントベースの超解像システムです。
このシステムは、低解像度の画像(例:256×256)を、ノイズやぼけなどの劣化があっても、美しい4K画像に変換できます。
通常の写真だけでなく、古い写真、AI生成画像、衛星画像、医療画像、顕微鏡画像など、あらゆる種類の画像に対応できる汎用性が特徴です。
3つのエージェント(知覚エージェント、復元エージェント、顔復元パイプライン)が協調して動作します。
画像の劣化状態を分析して最適な復元計画を立て、複数の専門的な画像処理ツールから最良の結果を選択します。
プロジェクトウェブサイト: https://4kagent.github.io

1. 研究概要

1.1 背景と動機

画像超解像(Super-Resolution, SR)は、低解像度画像から高解像度画像を再構築するコンピュータビジョンの基本的なタスクです。
従来のSR手法は、訓練時に想定した特定の劣化パターンにしか対応できず、実世界の複雑で予測不可能な劣化には対応困難でした。
特に、既存の生成的アプローチは4倍程度の拡大率までしか扱えず、極めて低品質な画像の復元や、異なるドメイン(AI生成画像、科学画像、医療画像など)への汎化は困難でした。
また、ユーザーは特定のワークフロー(ノイズ除去のみ、4K拡大、忠実度重視か知覚品質重視かなど)を求めることが多く、柔軟に適応できるシステムが必要でした。

1.2 主要な貢献

本研究は、あらゆる画像を4K解像度に高画質化できる初のAIエージェントフレームワーク「4KAgent」を提案しました。
主な貢献として、次のような点があります。

  • あらゆる画像カテゴリに対応する汎用4Kアップスケーリングフレームワーク。古典的・現実的劣化、極低品質入力、AI生成画像、科学画像を含む。
  • 知覚エージェントと復元エージェントによるマルチエージェントシステムの設計。
  • 品質駆動型のMoE(Q-MoE)ポリシーと専用顔復元パイプラインの開発。
  • 異なる復元タスクに適応できるプロファイルモジュールの提案。
  • 低品質256×256画像から高品質4K画像への変換を評価するDIV4K-50データセットの構築。

2. 提案手法

2.1 手法の概要

4KAgentは、複数の専門エージェントが協調して動作するマルチエージェントフレームワークです。
システムは4つの主要コンポーネントで構成されています。
(1)プロファイルモジュール:ユーザーの要求に応じてシステムをカスタマイズ
(2)知覚エージェント:画像の劣化を分析し復元計画を作成
(3)復元エージェント:Q-MoEポリシーに基づいて最適な復元をする
(4)顔復元パイプライン:顔領域を特別に強化
これらのエージェントが連携することで、任意の画像を段階的に復元し、最終的に4K解像度まで拡大します。

2.2 技術的詳細

知覚エージェントは、4段階の分析モジュールで構成されています。
まず、画像品質評価(IQA)ツール(CLIPIQA、TOPIQ、MUSIQ、NIQE)を使用して入力画像を多次元で評価します。
次に、Vision-Language Model(VLM)がIQAメトリクスと画像を分析し、劣化リストと初期復元アジェンダを生成します。
アップスケーリング係数は、入力画像サイズに基づいて自動的に計算され(2、4、8、16倍から選択)、4K解像度に到達するように設定されます。
最後に、LLM/VLMが画像説明、劣化リスト、復元経験を統合して、段階的な復元計画を策定します。

復元エージェントは、実行-反省-ロールバックの3段階プロセスを反復的に実行します。
各復元ステップで、ツールボックス内の全ツールが入力画像を処理します。
ツールは明度調整、デフォーカスぼけ除去、モーションぼけ除去、霧除去、ノイズ除去、雨除去、JPEG圧縮アーティファクト除去、超解像、顔復元の9種類です。
Q-MoEポリシーにより、HPSv2(人間の好み)とno-reference IQAメトリクスを組み合わせた品質スコアに基づいて最適な結果を選択します。
品質スコアが閾値を下回った場合、ロールバック機構が作動し、復元計画を調整します。

2.3 新規性

既存手法との主な違いは、単一の固定的なモデルではなく、複数の専門的な復元ツールを動的に組み合わせる点です。
品質駆動型のMoE(Q-MoE)アプローチにより、各復元ステップで複数のツールの出力から最良の結果を自動選択します。
プロファイルモジュールにより、再訓練なしで異なるドメインや要求に適応可能で、前例のない汎用性を実現しています。
また、顔復元パイプラインは、アイデンティティ保持と品質向上を両立させる専用の品質評価メトリクスを採用しています。

3. 実験結果

3.1 実験設定

実験は11の異なるタスクカテゴリ、合計26のベンチマークデータセットで実施されました。
評価は自然画像(古典的SR、実世界SR、多重劣化復元、顔復元)、AI生成画像、科学画像(リモートセンシング、蛍光顕微鏡、病理画像、医療画像)の3つの大カテゴリで行われました。
評価指標は、忠実度メトリクス(PSNR、SSIM)と知覚品質メトリクス(LPIPS、DISTS、FID、NIQE、CLIPIQA、MUSIQ、MANIQA)を使用しました。
比較対象として、高性能な忠実度を重視する手法(SwinIR、X-Restormer、HAT-L)と知覚を重視する手法(DiffBIR、OSEDiff、PiSA-SR)を使用しました。
また、エージェントベースのAgenticIRも比較に含めました。

3.2 主要な結果

古典的SR(4倍)では、4KAgentは忠実度プロファイルでPSNR/SSIMの上位3位以内を達成しました。
知覚プロファイルでは、知覚メトリクス(NIQE、CLIPIQA、MUSIQ、MANIQA)の上位2位を達成しました。
実世界SR画像では、RealSRおよびDrealSRデータセットで知覚メトリクスの新しい最高性能を記録しました。
AgenticIRを全メトリクスで上回りました。
多重劣化の画像復元では、16種類の劣化組み合わせを含むMiO100データセットで最高性能を達成しました。
PSNR、MANIQA、CLIPIQA、MUSIQのすべてで最高値を記録しました。
16倍超解像では、256×256から4096×4096への極端な拡大でも高品質な結果を生成し、新しく構築したDIV4K-50ベンチマークで優れた性能を示しました。

3.3 既存手法との比較

科学画像領域では、リモートセンシング(AID、DIOR、DOTA、WorldStrat)で4倍および16倍SRタスクの両方で最高性能を達成しました。
蛍光顕微鏡の画像では、SR-CACO-2データセットで優れた性能を示しました。
2倍、4倍、8倍すべてのスケールで、ROI内のPSNR、SSIM、NRMSEで最高スコアを記録しました。
医療画像では、X線(Chest X-ray 2017/14)、超音波(US-CASE、MMUS1K)、眼底画像(DRIVE)の各データセットで、専門的な医療SR手法を一貫して上回りました。
AI生成コンテンツでは、1K生成+4KAgentアップスケーリングが、ネイティブ4K生成モデルを一貫して上回る結果を示しました。

4. 実用性評価

4.1 実装の容易性

4KAgentはマルチGPU展開をサポートし、異なるエージェントを異なるGPUに割り当てることでメモリを節約できます。
プロファイルモジュールにより、ユーザーは再訓練なしで12種類の事前定義プロファイル(Gen4K-P、Aer4K-F、ExpSR-s4-Pなど)から選択できます。
各プロファイルは、知覚エージェント、アップスケール設定、復元オプション、顔復元、明度調整、復元優先度の7つのパラメータで構成されており、直感的にカスタマイズ可能です。

4.2 計算効率

実行時間は、単純な4倍SRで50.96秒、複雑な4K復元で最大1551.76秒となっています。
Fast4Kモードを有効にすると、入力画像サイズが閾値を超えた場合に推論時間の長い手法(50ステップの拡散ベース手法など)を自動的に除外し、処理時間を短縮できます。
ほとんどの実験は2つのNVIDIA RTX 4090 GPUで実施されており、一般的なハードウェアでの実行が可能です。

4.3 応用可能性

4KAgentは、消費者向け写真編集、商業画像処理、科学研究など幅広い分野で応用可能です。
特に、古い写真の復元、AI生成画像の高品質化、衛星画像の解像度向上、医療診断画像の鮮明化、顕微鏡画像の詳細化など、多様なユースケースに対応できます。
ドメイン固有の再訓練が不要なため、新しい応用分野への展開も容易です。

5. まとめと所感

5.1 論文の意義

4KAgentは、画像超解像の分野に新しいパラダイムを導入した画期的な研究です。
従来の単一モデルアプローチから、複数の専門ツールを動的に組み合わせるエージェントベースのアプローチへの転換は、より柔軟で汎用的なシステムの実現を可能にしました。
特に、再訓練なしで多様なドメインに適応できる点は、実用的な観点から非常に重要な貢献です。
また、低レベルビジョンタスクにおけるエージェントパラダイムの確立は、今後の研究に大きな影響を与える可能性があります。

5.2 今後の展望

著者らは、将来の改善点として以下を挙げています。
より正確な歪み知覚モデルの設計による効率性の向上。
プライバシー侵害や有害画像生成のリスクを軽減するための安全性と堅牢性の強化。
ドメイン固有の復元手法の追加統合によるツールボックスの継続的な拡張。
これらの改善により、4KAgentはさらに実用的で信頼性の高いシステムに発展する可能性があります。