LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence

著者

所属

投稿日

カテゴリ

arXiv ↗

基本情報

arXiv IDは2509.12203v1です。URLはhttps://arxiv.org/abs/2509.12203です。
著者はZixin Yin、Xili Dai、Duomin Wang、Xianfang Zeng、Lionel M. Ni、Gang Yu、Heung-Yeung Shumの7名です。
所属機関はThe Hong Kong University of Science and Technology、The Hong Kong University of Science and Technology (Guangzhou)、StepFunです。
投稿日は2025年09月18日です。
カテゴリはcs.CVとcs.LGです。

簡単に説明すると

LazyDragは、画像編集における「ドラッグ操作」を安定させる新しい手法です。従来の手法では、画像の一部をドラッグして移動させる際に、どの部分がどこに対応するかを注意機構で暗黙的に推測していましたが、これが不安定さの原因でした。LazyDragは、ユーザーのドラッグ操作から明示的な対応マップを生成し、これを使って安定した編集を実現します。特に、Multi-Modal Diffusion Transformersという最新の生成モデルで、テスト時最適化なしに高品質な画像編集を可能にします。プロジェクトサイトは https://zxyin.github.io/LazyDrag で公開されています。

1. 研究概要

1.1 背景と動機

ドラッグベースの画像編集は拡散モデルにおいて根本的な課題を抱えている。従来の手法では、編集時のオブジェクトのアイデンティティ保持のために、注意機構を通じた暗黙的な点対応を実施していました。MasaCtrlで導入された一般的な戦略では、注意機構においてキーとバリュートークンを共有します。しかし、この戦略は意味的に関連する領域ではなく、空間的に近い領域により多くの注意重みを割り当ててしまいます。これにより不安定で品質の劣化した編集結果が生じる問題がありました。

多くの手法はこの根本的な原因に取り組むのではなく、妥協策としてテスト時最適化や弱い逆変換強度に依存していました。これらの妥協は不一致をマスクしますが、信頼性の低いインペインティング、抑制されたテキストガイダンス、歪んだ編集結果などのコストを伴っていました。

1.2 主要な貢献

本研究の主要な貢献は3つの側面から構成されます。第一に、Multi-Modal Diffusion Transformersにおいて完全強度の逆変換を実現する初のドラッグベース編集手法LazyDragを提案しました。これは明示的な対応駆動の注意制御により、テスト時最適化の必要性を排除し、従来研究の核心的な不安定性を解決しています。

第二に、明示的対応マップとテキストガイダンスを結合することで、ドラッグ指示の曖昧性を解決し、自然なインペインティングと意味的に一貫した編集を可能にしました。

第三に、Drag-Benchにおける広範囲な実験により、LazyDragが定量的指標と人間の嗜好の両方で既存の全ての手法を顕著に上回ることを実証しました。

2. 提案手法

2.1 手法の概要

LazyDragは、従来の脆弱な暗黙的点対応を、ユーザー入力から導出される堅牢で明示的な対応マップに置き換える2段階のアプローチを採用している。第一段階では、ドラッグ指示から明示的対応マップを生成し、第二段階では、このマップがアイデンティティと背景保持のための新しい2部構成の注意制御を駆動する仕組みとなっています。

具体的には、入力画像を潜在コードz_Tに逆変換し、対応マップ生成により更新された潜在符号、点対応マップ、重みαを生成します。逆変換中にキャッシュされたトークンを使用して、アイデンティティと背景保持のためのサンプリングプロセスをガイドする構造となっています。

2.2 技術的詳細

手法の核心は勝者総取り方式による変位場計算にある。潜在グリッドΩ上で編集可能領域Pをサンプリングし、ドラッグ指示DからVoronoi分割を用いて各点を最近接ハンドルに割り当てる。この際、対立するドラッグ（口を開くための上唇の上向きと下唇の下向きなど）において、平均化による失敗を避けるため、各点は勝利した指示によってのみ決定される。

明示的対応マップは、マッチング点マップM(x)=p_{j*(x)}とマッチング重みマップA(x)=min(1,α_{j*(x)})から構成される。潜在空間Ωは4つの互いに素な集合に分割される。背景領域、移動されたコンテンツがアイデンティティを保持してレンダリングされる目的地領域、ノイズから初期化されるインペインティング領域、境界を滑らかにブレンドする遷移領域である。

2.3 新規性

本手法の新規性は、既存手法の根本的制限を解決する点にある。従来のFastDragでは、U-NetモデルでBNNI補間を使用していたが、LazyDragでは拡散事前分布と整合するガウシアンノイズを使用し、反復アーティファクトを防止して高忠実度テキストガイドインペインティング能力を実現している。

CharaConsistとの比較では、注意類似性に基づく点対応機構の脆弱性を解決している。完全強度の逆変換下では、対応マップの軽微な不一致でも重大な視覚的アーティファクトを引き起こしますが、LazyDragの明示的対応マップはこの問題を根本的に解決しています。

3. 実験結果

3.1 実験設定

[データセット、評価指標など]

3.2 主要な結果

[定量的・定性的結果]

3.3 既存手法との比較

[比較結果と分析]

4. 実用性評価

4.1 実装の容易性

[評価]

4.2 計算効率

[評価]

4.3 応用可能性

[評価]

5. まとめと所感

5.1 論文の意義

[考察・総合評価]

5.2 今後の展望

[将来性や改善点]