Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image

著者 Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

所属 University of Illinois Urbana-Champaign, SpreeAI

投稿日 2025年9月6日

カテゴリ cs.CV, cs.AI

arXiv 2509.04450v1 ↗

Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image

基本情報

arXiv ID: 2509.04450v1 (https://arxiv.org/abs/2509.04450)
著者: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
所属: University of Illinois Urbana-Champaign, SpreeAI
投稿日: 2025年9月6日
カテゴリ: cs.CV, cs.AI

簡単に説明すると

この論文では、1枚の写真から任意の長さの仮想試着動画を生成できるVirtual Fitting Room（VFR）という新しい手法を提案しています。
従来の仮想試着技術は静止画か短い動画（5-10秒）に限定されていましたが、VFRでは最大90秒という長時間の動画を720×1152の高解像度で生成可能です。
技術的な核心は、小さな動画セグメントを自動回帰的に繋げていく手法と、360度回転する「アンカー動画」を使って全体の一貫性を保つ仕組みです。
特に興味深いのは、時間的一貫性を学習する過程で3D表現が自然に獲得され、任意の視点からの描画も可能になる点です。
プロジェクトページ（immortalco.github.io/VirtualFittingRoom）では実際の生成結果を確認できます。

1. 研究概要

1.1 背景と動機

仮想試着技術は既存の手法では大きな制約があります。画像ベースの手法では入力と同じポーズに制限され、動画ベースの手法でも5～10秒という短時間に限定されています。
ユーザーが衣服を真に理解するためには、様々な動きや角度から衣服との相互作用を観察する必要があります。

従来手法の技術的制約として、長時間の動画生成には膨大な計算資源と大規模な長時間動画データセットが必要であり、実用的ではありませんでした。
また、モジュラー型アプローチ（画像試着＋動画アニメーション）では誤差の蓄積により品質劣化が発生していました。

著者らは「エッセイ執筆時にアウトラインを作成する」という比喩を用いて解決策を提案しています。
長時間動画生成を、1）全体を導く「アンカー」の作成、2）アンカーと一貫性のある複数の短時間セグメントの生成、という2段階プロセスとして捉えています。

1.2 主要な貢献

この論文では仮想試着技術において以下の画期的な貢献をしています。

技術的貢献として、任意の長さの高解像度動画生成を実現しています。
720×1152解像度、8FPS（24FPSに向上可能）で、最大90秒の動画生成を単一画像から実現した初の手法です。

アーキテクチャ革新として、360度「アンカー動画」概念を導入しています。
A字ポーズでの360度回転動画を生成し、これが全身外観の包括的な参照として機能し、全セグメント間のグローバル一貫性を保証します。

自動回帰的生成フレームワークにより、セグメント間の重複部分を「プレフィックス動画」として条件付けすることで、隣接セグメント間の局所的スムーズネスを確保しています。

副次的発見として、時間的一貫性学習の過程で3D一貫性が自然に獲得され、明示的な3D監視なしに任意視点からの描画が可能になることを実証しています。

評価手法革新として、4段階難易度の包括的評価プロトコルを提案し、仮想試着手法の総合的品質評価を可能にしています。

2. 提案手法

2.1 手法の概要

VFR（Virtual Fitting Room）は、長時間仮想試着動画生成の課題を2つの主要問題として定義しています。
局所的スムーズネス（隣接セグメント間の滑らかな遷移）とグローバル時間一貫性（離れたセグメント間での外観の一貫性）の確保です。

解決アプローチとして、自動回帰的セグメント生成を採用しています。
長い動画を短いセグメントに分割し、各セグメントを時系列順に生成することで、長時間動画データセットへの依存を回避します。

核心的革新である「アンカー動画」システムでは、A字ポーズでの360度回転動画を最初に生成します。
これが全身外観の包括的な「設計図」として機能し、後続の全セグメント生成において一貫性の基準となります。

プレフィックス条件付けシステムにより、隣接セグメント間で数フレームを重複させ、この重複部分を次セグメント生成の条件として使用することで、局所的な連続性を保証します。

2.2 技術的詳細

モデル基盤としてDress&Danceをベースとし、「プレフィックス動画」と「アンカー動画」の2つのCondNetを追加した拡張アーキテクチャを構築しています。

学習プロトコルは段階的に実行されます。
最初の10,000イテレーションでインターネット収集データと独自収集データで基本学習を行い、5,000イテレーション時点のチェックポイントから即座リファイナーを初期化します。
追加の5,000イテレーションでリファイナーの学習を実行します。

生成プロセスは以下の手順で実行されます。
入力としてユーザー画像、衣服画像、動作参照動画を使用し、まず360度アンカー動画を生成します。
続いて、アンカー条件とプレフィックス条件の両方を用いて各セグメントを順次生成し、即座リファイナーで品質を向上させます。

数学的定式化として、各セグメントS_iの生成は P(S_i | S_{i-1}^{overlap}, A, M, G) として表現できます。
ここでS_{i-1}^{overlap}はプレフィックス、Aはアンカー動画、Mは動作参照、Gは衣服画像を表します。

2.3 新規性

既存手法との根本的差異は、予測精度だけでなく時間的一貫性の同時追求にあります。

従来の画像→動画手法では、単一フレームからの短時間生成に限定され、長時間の一貫性は考慮されていませんでした。
既存の長動画生成手法では、仮想試着特有の要件（衣服の形状保持、人体との正確な相互作用）が考慮されていませんでした。

VFRの技術革新は以下の点にあります。

アンカー動画による一貫性制御は、360度動画を「アウトライン」として使用する新しいパラダイムです。
従来のフレーム間補間アプローチとは異なり、グローバルな外観設計を事前に確立します。

二重条件付けシステムにより、アンカー動画（グローバル一貫性）とプレフィックス動画（局所スムーズネス）の両方を同時に活用します。

3D一貫性の自然獲得により、明示的な3D監視や複雑な幾何学的制約なしに、時間的一貫性学習の副産物として3D表現を獲得します。

実用性重視の設計として、長時間動画データセットを必要とせず、短時間セグメントの組み合わせで任意長の動画を生成可能です。

3. 実験結果

3.1 実験設定

包括的評価のため、4段階難易度レベルの評価プロトコルを設計しています。

レベル1（5秒）では360度衣服一貫性評価として、静止したA字ポーズでの衣服品質を評価します。
レベル2（30秒）では360度人間＋衣服一貫性評価として、固定点周りでの軽い動きでの人間と衣服の両方の品質を評価します。
レベル3（90秒）では手と身体の相互作用忠実性評価として、制御された環境での固定ポーズシーケンスでの頑健性を評価します。
レベル4（30-60秒）では任意ポーズ対応能力評価として、様々なポーズと方向での自由な相互作用での頑健性を評価します。

技術仕様として、解像度720×1152ピクセル、フレームレート8FPS（24FPSに向上可能）、生成時間30秒動画で1-2時間、最大実証長90秒となっています。

ベースライン比較では、主要ベースラインとしてFramePack（画像仮想試着＋画像→動画アニメーション）、Kling Video 2.0（画像→動画の反復適用）、Dress&Dance（最先端仮想試着基盤）を使用しています。

アブレーション研究では、No Prefix（プレフィックス条件なし）、No Anchor（アンカー動画条件なし）、Dress&Dance（学習不要ベースライン）、No Refine（即座リファイナーなし）の各バリエーションで評価しています。

3.2 主要な結果

量的評価において、VBenchメトリクス（主体一貫性、背景一貫性、動作スムーズネス）とGPTベーススコア（試着品質、ユーザー外観、動作忠実性、視覚品質）の両方で一貫した優位性を示しています。

主要発見として、全難易度レベルで一貫した優越性を実証しています。
アンカー動画が時間一貫性に決定的な役割を果たし、プレフィックス条件付けがスムーズな遷移に不可欠であることが判明しました。
完全なVFRシステムで94.06%の主体一貫性を達成し、ベースライン手法を大幅に上回っています。

質的評価では、生成された動画が高い視覚品質と時間的一貫性を示し、衣服の細かな詳細（パターン、テクスチャ、形状）が長時間にわたって保持されています。
人間の動きと衣服の相互作用が自然で現実的に描画され、アクセサリー（眼鏡、スリッパなど）も一貫して保持されています。

3D一貫性の獲得については、360度アンカー動画がNeRFStudio互換の3Dメッシュ再構成を可能にし、明示的な3D監視なしに3D表現を学習していることが確認されています。

3.3 既存手法との比較

従来手法との比較において、VFRの優位性が明確に示されています。

FramePackアプローチでは、画像試着と動画生成の分離により誤差蓄積が発生し、長時間での品質劣化が顕著でした。
Kling Video 2.0では、反復的アプローチによる時間的不整合と計算非効率性が問題となっています。
Dress&Danceでは、短時間生成に限定され、長時間の一貫性が保証されていません。

VFRの競合優位性は以下の点にあります。

時間的一貫性において、アンカー動画システムによりグローバル一貫性を確保し、従来手法で見られる長期間での外観変化問題を解決しています。

計算効率性では、長時間動画データセットを必要とせず、短時間セグメント合成により効率的な学習を実現しています。

品質安定性について、4段階評価プロトコル全体で安定した高品質を維持し、従来手法で見られる特定条件下での性能劣化を回避しています。

拡張性の面で、任意長動画生成能力により、従来手法の固定長制限を克服しています。

4. 実用性評価

4.1 実装の容易性

VFRの実装は既存のDiffusionモデル基盤を活用しているため、技術的ハードルは比較的低いと評価されます。
CondNet拡張による段階的学習アプローチにより、既存フレームワークへの統合が容易です。

しかし、実用展開における制約として、30秒動画で1-2時間という生成時間は、リアルタイムアプリケーションには不適です。
高解像度（720×1152）処理には相応の計算資源が必要であり、モバイル環境での直接実行は困難です。

技術的要件として、GPUメモリ消費量や学習データセットの準備コストが考慮すべき要素となります。
一方で、モジュラー設計により個別コンポーネントの最適化や置換が可能であり、将来的な改善の余地があります。

4.2 計算効率

現在の実装では、30秒動画生成に1-2時間を要するため、商用アプリケーションでの直接使用は困難です。
しかし、従来の長時間動画生成アプローチと比較すると、長時間データセットへの依存回避により学習効率は向上しています。

セグメント単位の生成により、並列処理による高速化の可能性があります。
各セグメントは独立性が高いため、複数GPU環境での分散処理が期待できます。

将来的改善として、軽量モデルアーキテクチャの採用、推論時最適化技術の適用、ハードウェア最適化による大幅な高速化が期待されます。
クラウドベースサービスとしての提供により、エンドユーザーの計算資源制約を回避できる可能性があります。

4.3 応用可能性

Eコマース分野での応用において、オンライン購入前の包括的な衣服体験を提供し、返品率の大幅削減が期待できます。
顧客満足度向上と購買決定の確信度向上により、小売業界に大きなインパクトをもたらす可能性があります。

ファッション業界では、デザイナーがプロトタイプ制作前に衣服デザインの動的評価が可能になります。
バーチャルファッションショーやプレゼンテーションでの活用により、物理的制約を超えた表現が実現できます。

ソーシャルメディア・コンテンツ作成分野では、インフルエンサーやクリエイターの新しいコンテンツ形式として活用できます。
パーソナライズされたファッションコンテンツ生成により、ユーザーエンゲージメントの向上が期待されます。

技術的拡張として、リアルタイムユーザー交互作用との統合、4Dコンテンツ（視点＋動作制御）への拡張、複数衣服の同時試着、材質感やテクスチャの詳細制御などの発展方向があります。

社会的インパクトとして、物理的制約のある人々のファッション体験向上、持続可能ファッション（無駄な生産削減）への貢献、ファッション教育・訓練ツールとしての活用などが期待されます。

5. まとめと所感

5.1 論文の意義

この論文は仮想試着技術分野において理論的・実用的の両面で重要な貢献をしています。

技術革新の観点から、アンカー動画概念の導入は長時間動画生成における新しいパラダイムを確立しています。
従来の「フレーム間補間」から「グローバル設計図に基づく生成」への転換は、他の動画生成タスクへの応用可能性も示唆しています。

実用性の面では、初めて実用的な長時間仮想試着動画生成を実現し、Eコマースやファッション業界への直接的インパクトを提供しています。
90秒という長時間動画により、ユーザーの衣服理解と購買決定支援において質的な向上をもたらします。

学術的貢献として、4段階評価プロトコルの提案により、仮想試着技術の標準的評価手法を確立しています。
3D一貫性の自然獲得という予期しない発見は、時間的一貫性と3D理解の関係について新しい知見を提供しています。

方法論的意義では、長時間動画データセットへの依存を回避するアプローチにより、データ効率的な学習手法の新しい方向性を示しています。
自動回帰的セグメント生成とグローバル一貫性制御の組み合わせは、他の生成タスクへの応用価値が高いと評価されます。

5.2 今後の展望

短期的な改善目標として、生成速度の大幅向上が最優先課題です。
現在の1-2時間/30秒から、数分レベルまでの短縮により実用性が格段に向上します。
モバイルデバイス対応のための軽量化と、リアルタイム生成に向けた最適化が重要です。

技術的拡張として、より多様なポーズと動作パターンへの対応、複数衣服の同時試着機能、材質感とテクスチャの詳細制御、ユーザー指定動作との統合などが期待されます。

長期的な発展方向では、完全なバーチャル試着室の実現により、物理的試着室の体験を超える機能提供を目指します。
AR/VR技術との統合による没入型試着体験、AIファッションアドバイザーとの組み合わせによる個人向けスタイリング提案などが可能になります。

産業応用の拡大として、ファッション以外の分野（家具、インテリア、化粧品など）への技術転用、個人向けからB2B2C モデルへの展開、グローバル小売業界のデジタル変革の推進が考えられます。

社会的インパクトとしては、持続可能なファッション消費の促進、アクセシビリティ向上による包括的なファッション体験の提供、新しいクリエイティブ表現手法の確立などが期待されます。

最終的に、この研究は単なる技術改善を超えて、ファッションとテクノロジーの融合における新しい可能性を示しており、デジタル時代の消費体験における重要な基盤技術となる可能性を持っています。