SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
Trong-Tung Nguyen1 Quang Nguyen1 Khoi Nguyen1
Anh Tran1 Cuong Pham1,2
1 VinAI Research 2 Posts & Telecom. Inst. of Tech., Vietnam
Abstract テキストガイドによる画像編集の最近の進歩により、ユーザーは多段階の拡散ベースのテキストから画像へのモデルの広範な事前知識を活用し、単純なテキスト入力を通じて画像編集を実行することが可能になった。しかしながら、これらの手法は、コストのかかる多段階の反転とサンプリングプロセスが関与するため、実世界やオンデバイスアプリケーションに必要とされる速度要求を満たせないことが多い。これに応えて、我々はSwiftEditを導入する。SwiftEditは、瞬時のテキストガイドによる画像編集(0.23秒で )を実現する、シンプルかつ非常に効率的な編集ツールである。SwiftEditの進歩は、2つの新規な貢献にある:反転を通じて1ステップで画像再構成を可能にする1ステップ反転フレームワークと、局所的な画像編集を実行するための我々が提案する注意力再スケーリングメカニズムを伴うマスクガイド編集技術である。SwiftEditの有効性と効率性を実証するために、広範な実験が提供されている。特に、SwiftEditは瞬時のテキストガイドによる画像編集を可能にし、これは以前の多段階手法よりも極めて高速である(少なくとも50× \times × 倍高速 )一方で、編集結果において競争力のあるパフォーマンスを維持している。本稿のプロジェクトページはhttps://swift-edit.github.io/ にある。
1 Introduction
近年のテキストから画像への拡散モデル [25 , 24 , 23 , 27 ] は、与えられたテキストプロンプトと意味的に整合性のある高品質な画像を生成する上で、顕著な成果を上げている。現実的な画像を生成するために、これらのモデルの多くは、ランダムノイズから現実的な画像へと拡散プロセスを逆転させる多段階サンプリング技術に依存している。この時間のかかるサンプリングプロセスを克服するために、一部の研究ではサンプリングステップ数を数段階(4-8ステップ)[27 ] 、あるいは1ステップ [38 , 37 , 19 , 5 ] にまで削減することに焦点を当てている。これらのアプローチは、結果を損なうことなく蒸留技術を通じて実現されている。これらの手法は画像生成を加速させるだけでなく、画像編集などの下流タスクにおいてより高速な推論を可能にする。
テキストガイド付き画像編集において、最近のアプローチ [18 , 11 , 29 ] では、ソース画像の初期ノイズを決定するための反転プロセスを使用し、(1)ソース画像の再構築と(2)他の詳細を保持しながらガイドテキストに沿ったコンテンツの修正を可能にしている。この反転されたノイズから始めて、注意操作やハイジャック [3 , 33 , 20 ] などの追加技術が各デノイジングステップで適用され、主要な背景要素を保持しながら徐々に編集を注入する。しかし、この典型的なアプローチは、反転と編集という2つの長い多段階 プロセスを必要とするため、リソースを大量に消費する。この問題に対処するため、最近の研究 [6 , 8 , 31 ] では、SD-Turbo [28 ] のような少数ステップ 拡散モデルを使用して、反転と編集に必要なサンプリングステップを削減し、テキストプロンプトを通じた分離編集のための追加ガイダンスを組み込んでいる。しかしながら、これらの手法は依然として、多段階アプローチと競合する性能を維持しながら、デバイス上のアプリケーションに十分な速度でテキストガイド付き画像編集を実現することに苦心している。
図2 :
我々のワンステップ SwiftEditと少数ステップ およびマルチステップ拡散 編集手法を、背景保持(PSNR)、編集セマンティクス(CLIPスコア)、実行時間の観点から比較している。我々の手法は、競争力のある結果を達成しつつ、超高速なテキストガイド編集を実現している。
本稿では、画像編集のためにワンステップ テキスト生成画像モデルを基盤とする異なるアプローチを採用している。我々はSwiftEdit - 初のワンステップテキストガイド画像編集ツール - を導入する。これは、競争力のある編集品質を維持しつつ、従来のマルチステップ手法よりも少なくとも50× \times × 倍高速な実行を実現する。特筆すべきは、SwiftEditにおける反転と編集の両方がワンステップで完了することである。
ワンステップ拡散モデルの反転は困難である。既存のDDIM Inversion [29 ] やNull-text Inversion [18 ] などの技術は、我々のワンステップリアルタイム編集の目標には適していない。これを達成するために、我々はエンコーダベースのGAN Inversion手法 [39 , 34 , 35 ] にインスピレーションを得た新しいワンステップ反転フレームワークを設計した。GAN反転とは異なり、ドメイン固有のネットワークや再学習を必要とせず、我々の反転フレームワークはあらゆる入力画像に一般化される。このために、我々は速度、多様性、品質で知られる最近のワンステップテキスト生成画像モデルであるSwiftBrushv2 [5 ] を活用し、これをワンステップ画像生成器 および我々のワンステップ反転ネットワーク のバックボーンとして使用する。その後、SwiftBrushv2から初期化された重みを用いて、合成データと実データの両方からの監督を組み合わせた2段階の学習戦略を通じて、あらゆるソース入力を処理できるよう学習を行う。
ワンステップ反転に続いて、我々は効率的なマスクベースの編集技術を導入する。我々の手法は、入力編集マスクを受け入れるか、または学習済み反転ネットワークとガイダンスプロンプトから直接推論することができる。このマスクは、我々の新しい注意力再スケーリング技術で使用され、編集強度のブレンドと制御を行いながら背景要素を保持し、高品質な編集結果を可能にする。
我々の知る限り、本稿は拡散ベースのワンステップ反転を用いて、ワンステップのテキストから画像生成モデルを使用し、テキストガイドによる画像編集を瞬時に実行する(0.23秒で )最初の研究である。他の多段階および少数段階の編集手法と比較して著しく高速でありながら、我々のアプローチは図 2 に示すように競争力のある編集結果を達成している。要約すると、我々の主な貢献は以下の通りである:
•
我々は、二段階戦略で訓練された新規のワンステップ反転フレームワークを提案する。一度訓練されると、我々のフレームワークは追加の再訓練や微調整なしに、任意の入力画像を編集可能な潜在表現に単一ステップで反転できる。
•
我々は、十分に訓練された反転フレームワークが、ソースおよびターゲットのテキストプロンプトによってガイドされた編集マスクを単一のバッチ化された順伝播内で生成できることを示す。
•
我々は、マスクベースの編集のための新規の注意再スケーリング技術を提案し、重要な背景情報を保持しながら編集強度の柔軟な制御を可能にする。
2 Related Work
2.1 Text-to-image Diffusion Models
拡散ベースのテキストから画像へのモデル[23 , 25 , 24 ] は、通常、ガウスノイズからリアルな画像を生成するために計算コストの高い反復的なノイズ除去に依存している。最近の進歩[26 , 17 , 30 , 15 ] により、多段階の教師モデルの知識を少数ステップの学習ネットワークに蒸留することでこの問題が軽減されている。注目すべき研究[14 , 30 , 15 , 38 , 37 , 19 , 5 ] は、この知識を1ステップの学習モデルにさえ蒸留できることを示している。具体的には、Instaflow[14 ] は整流フローを使用して1ステップのネットワークを訓練し、DMD[38 ] は知識転移のために分布マッチング目的関数を適用している。DMDv2[37 ] はコストの高い回帰損失を除去し、効率的な少数ステップのサンプリングを可能にしている。SwiftBrush[19 ] はテキストから3D生成の目的関数を持つ画像フリーの蒸留方法を利用し、SwiftBrushv2[5 ] は学習後のモデル統合とクランプされたCLIP損失を統合し、教師モデルを上回り、最先端の1ステップのテキストから画像への性能を達成している。これらの1ステップモデルは、テキストと画像の整合性に関する豊富な事前情報を提供し、非常に高速であるため、我々の1ステップのテキストベース画像編集アプローチに理想的である。
2.2 Text-based Image Editing
いくつかのアプローチは、テキストから画像への変換モデルにおける画像とテキストの関係の強力な事前知識を活用し、逆変換による編集アプローチを通じてテキストガイドによる多段階 画像編集を実現している。まず、ソース画像を「情報量の多い」ノイズに逆変換する。DDIM Inversion [29 ] のような手法は、ノイズ予測の線形近似を使用する一方、Null-text Inversion [18 ] は、コストのかかるステップごとの最適化を通じて再構成品質を向上させる。Direct Inversion [11 ] は、ソースと目標の生成ブランチを分離することでこれらの問題を回避する。次に、[3 , 33 , 20 , 21 , 10 ] のような編集手法は、背景コンテンツを保持しながら編集を埋め込むために注意マップを操作する。しかし、その多段階拡散プロセスは実用的なアプリケーションには依然として遅すぎる。
この問題に対処するため、いくつかの研究 [31 , 8 , 6 ] は、高速生成モデル [27 ] を使用して少数ステップでの画像編集を可能にしている。ICD [31 ] は、一貫性蒸留フレームワークを用いて3-4ステップで正確な逆変換を達成し、その後テキストガイドによる編集を行う。ReNoise [8 ] は、各ステップで反復的な再ノイズ化技術を用いてサンプリングプロセスを改良する。TurboEdit [6 ] は、SDXL Turbo [28 ] のような高速モデルで期待されるスケジュールと逆変換されたノイズを整合させるために、シフトされたノイズスケジュールを使用する。これらの手法は推論時間を短縮するものの、高速アプリケーションに必要な即時のテキストベース画像編集には至っていない。我々の1ステップ逆変換と1ステップ局所編集アプローチは、時間効率を劇的に向上させると同時に、少数ステップ手法を編集性能で上回っている。
2.3 GAN Inversion
GAN逆変換[39 , 22 , 34 , 13 , 4 , 16 , 2 ] は、事前学習されたGANの潜在空間にソース画像をマッピングし、生成器が画像を再現することを可能にする。これは画像編集などのタスクに有用である。効果的な編集には、画像を再構成し、潜在コードの変化を通じて現実的な編集をサポートできる潜在空間が必要である。アプローチは3つのグループに分類される:エンコーダベース[22 , 39 , 40 ] 、最適化ベース[13 , 4 , 16 ] 、およびハイブリッド[2 , 1 , 39 ] である。エンコーダベースの手法は、高速な再構成のために画像から潜在コードへのマッピングを学習する。最適化ベースの手法は、コードを反復的に最適化することで改良する。ハイブリッド手法は両者を組み合わせ、エンコーダの出力を初期値として更なる最適化を行う。我々は、エンコーダベースの速度に触発され、ワンステップ逆変換ネットワークを開発したが、GANの代わりにワンステップのテキストから画像への拡散モデルを活用している。これにより、GANベースの手法が特定のドメインに制限されるのとは異なり、多様なドメインにわたるテキストベースの画像編集を実現することができる。
3 Preliminaries
図3 : 我々のワンステップ反転フレームワークのための提案された二段階トレーニング。第1段階では、SwiftBrushv2によって生成された合成データで反転ネットワークをウォームアップする。第2段階では、実際の画像に焦点を移し、我々の反転フレームワークが追加の微調整や再トレーニングなしに任意の入力画像を即座に反転できるようにする。
マルチステップ拡散モデル。
テキストから画像への拡散モデル ϵ ϕ subscript bold-italic-ϵ italic-ϕ \mbox{\boldmath{$\epsilon$}}_{\phi} bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT は、ターゲットプロンプト埋め込み 𝐱 ^ ^ 𝐱 \hat{{\bf x}} over^ start_ARG bold_x end_ARG (与えられたテキストプロンプト 𝐜 y subscript 𝐜 𝑦 {\bf c}_{y} bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT のCLIPテキストエンコーダーから抽出)が与えられた場合に、ガウスノイズ y 𝑦 y italic_y から始まる T 𝑇 T italic_T 回の反復的なデノイジングステップを通じて画像 𝐳 T = ϵ ∼ 𝒩 ( 0 , I ) subscript 𝐳 𝑇 bold-italic-ϵ similar-to 𝒩 0 𝐼 {\bf z}_{T}=\mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,I) bold_z start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT = bold_italic_ϵ ∼ caligraphic_N ( 0 , italic_I ) を生成しようとする:
𝐳 t − 1 = 𝐳 t − σ t ϵ ϕ ( 𝐳 t , t , 𝐜 y ) α t + δ t ϵ t , ϵ t ∼ 𝒩 ( 0 , I ) , formulae-sequence subscript 𝐳 𝑡 1 subscript 𝐳 𝑡 subscript 𝜎 𝑡 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 subscript 𝛼 𝑡 subscript 𝛿 𝑡 subscript bold-italic-ϵ 𝑡 similar-to subscript bold-italic-ϵ 𝑡 𝒩 0 𝐼 {\bf z}_{t-1}=\frac{{\bf z}_{t}-\sigma_{t}\mbox{\boldmath{$\epsilon$}}_{\phi}(%
{\bf z}_{t},t,{\bf c}_{y})}{\alpha_{t}}+\delta_{t}\mbox{\boldmath{$\epsilon$}}%
_{t},\quad\mbox{\boldmath{$\epsilon$}}_{t}\sim\mathcal{N}(0,I), bold_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT = divide start_ARG bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG + italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∼ caligraphic_N ( 0 , italic_I ) ,
(1)
ここで、t 𝑡 t italic_t はタイムステップであり、σ t , α t , δ t subscript 𝜎 𝑡 subscript 𝛼 𝑡 subscript 𝛿 𝑡
\sigma_{t},\alpha_{t},\delta_{t} italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT は3つの係数である。
最終的な潜在変数 𝐳 = 𝐳 0 𝐳 subscript 𝐳 0 {\bf z}={\bf z}_{0} bold_z = bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT は、その後VAEデコーダー 𝒟 𝒟 \mathcal{D} caligraphic_D に入力され、画像 𝐱 ^ = 𝒟 ( 𝐳 ) ^ 𝐱 𝒟 𝐳 \hat{{\bf x}}=\mathcal{D}({\bf z}) over^ start_ARG bold_x end_ARG = caligraphic_D ( bold_z ) を生成する。
ワンステップ拡散モデル 。
従来の拡散モデルのサンプリングプロセスは複数のステップを必要とし、時間がかかる。この問題に対処するため、InstaFlow [14 ] 、DMD [38 ] 、DMD2 [37 ] 、SwiftBrush [19 ] 、SwiftBrushv2 [5 ] のようなワンステップテキストから画像への拡散モデルが開発され、サンプリングステップを単一のステップに削減している。具体的には、ワンステップテキストから画像への拡散モデル 𝐆 𝐆 {\bf G} bold_G は、テキストプロンプト埋め込み ϵ ∼ 𝒩 ( 0 , 1 ) similar-to bold-italic-ϵ 𝒩 0 1 \mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,1) bold_italic_ϵ ∼ caligraphic_N ( 0 , 1 ) が与えられた場合に、ノイズ入力 𝐜 y subscript 𝐜 𝑦 {\bf c}_{y} bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT を、反復的なデノイジングステップなしに直接画像潜在変数 𝐳 ^ ^ 𝐳 \hat{{\bf z}} over^ start_ARG bold_z end_ARG に変換することを目指す、つまり 𝐳 ^ = 𝐆 ( ϵ , 𝐜 y ) ^ 𝐳 𝐆 bold-italic-ϵ subscript 𝐜 𝑦 \hat{{\bf z}}={\bf G}(\mbox{\boldmath{$\epsilon$}},{\bf c}_{y}) over^ start_ARG bold_z end_ARG = bold_G ( bold_italic_ϵ , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) である。SwiftBrushv2(SBv2)は、高品質で多様な出力を迅速に生成することでワンステップ画像生成において際立っており、我々のアプローチの基礎を形成している。その前身をベースに、SBv2は重要な改良を統合している:出力品質を向上させるためのSD-Turbo初期化の使用、視覚-テキスト整合性を強化するためのクランプされたCLIP損失、モデル融合と後処理強化技術の使用など、これらすべてが優れたパフォーマンスと視覚的忠実性に貢献している。
スコア蒸留サンプリング(Score Distillation Sampling, SDS) は、2次元拡散モデルによって学習された強力な事前分布を利用して、目標データポイント𝐳 𝐳 {\bf z} bold_z を最適化する人気のある目的関数である。その勾配は以下のように計算される:
∇ θ ℒ SDS ≜ 𝔼 t , ϵ [ w ( t ) ( ϵ ϕ ( 𝐳 t , t , 𝐜 y ) − ϵ ) ∂ 𝐳 ∂ θ ] , ≜ subscript ∇ 𝜃 subscript ℒ SDS subscript 𝔼 𝑡 bold-italic-ϵ
delimited-[] 𝑤 𝑡 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 bold-italic-ϵ 𝐳 𝜃 \nabla_{\theta}\mathcal{L}_{\text{SDS}}\triangleq\mathbb{E}_{t,\mbox{\boldmath%
{$\epsilon$}}}\left[w(t)\left(\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},%
t,{\bf c}_{y})-\mbox{\boldmath{$\epsilon$}}\right)\frac{\partial{\bf z}}{%
\partial\theta}\right], ∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT SDS end_POSTSUBSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , bold_italic_ϵ end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - bold_italic_ϵ ) divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG ] ,
(2)
ここで、𝐳 = g ( θ ) 𝐳 𝑔 𝜃 {\bf z}=g(\theta) bold_z = italic_g ( italic_θ ) はθ 𝜃 \theta italic_θ によってパラメータ化された微分可能な画像生成器g 𝑔 g italic_g によってレンダリングされ、𝐳 t subscript 𝐳 𝑡 {\bf z}_{t} bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT は𝐳 𝐳 {\bf z} bold_z にランダムな量のノイズϵ bold-italic-ϵ \epsilon bold_italic_ϵ を加えた摂動版を表し、w ( t ) 𝑤 𝑡 w(t) italic_w ( italic_t ) はタイムステップt 𝑡 t italic_t に対応するスケーリング関数である。
SDSの損失の目的は、拡散モデルϵ ϕ ( 𝐳 t , t , 𝐜 y ) subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 \mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y}) bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) のスコア関数を使用して、𝐳 𝐳 {\bf z} bold_z をデータ多様体の高密度領域に移動させる更新方向を提供することである。注目すべきは、この勾配が拡散バックボーンのヤコビアン項を省略しており、拡散モデルのU-Net全体を通じての逆伝播における高コストな計算を排除していることである。
デカップルされたクロスアテンションによる画像プロンプト 。
IP-Adapter [36 ] は、事前学習済みのテキストから画像生成モデルにシームレスに統合できる画像プロンプト条件 𝐱 𝐱 {\bf x} bold_x を導入している。これは、テキストと画像特徴の条件付け効果を分離するデカップルされたクロスアテンション機構によって実現される。具体的には、元のU-Netの各クロスアテンション層に追加のクロスアテンション層を加えることで行われる。CLIP画像エンコーダによって 𝐱 𝐱 {\bf x} bold_x から抽出された画像特徴 𝐜 𝐱 subscript 𝐜 𝐱 {\bf c}_{\bf x} bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT 、CLIPテキストエンコーダを使用してテキストプロンプト y 𝑦 y italic_y から得られるテキスト特徴 𝐜 y subscript 𝐜 𝑦 {\bf c}_{y} bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT 、および前のU-Net層 l − 1 𝑙 1 l-1 italic_l - 1 からのクエリ特徴 𝐙 l subscript 𝐙 𝑙 {\bf Z}_{l} bold_Z start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT が与えられた場合、デカップルされたクロスアテンションの出力 𝐡 l subscript 𝐡 𝑙 {\bf h}_{l} bold_h start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT は以下のように計算される:
𝐡 l subscript 𝐡 𝑙 \displaystyle{\bf h}_{l} bold_h start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT
= Attn ( Q l , K y , V y ) + s 𝐱 Attn ( Q l , K 𝐱 , V 𝐱 ) , absent Attn subscript 𝑄 𝑙 subscript 𝐾 𝑦 subscript 𝑉 𝑦 subscript 𝑠 𝐱 Attn subscript 𝑄 𝑙 subscript 𝐾 𝐱 subscript 𝑉 𝐱 \displaystyle=\operatorname{Attn}(Q_{l},K_{y},V_{y})+s_{{\bf x}}\operatorname{%
Attn}(Q_{l},K_{\bf x},V_{\bf x}), = roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) + italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) ,
(3)
ここで、Attn ( . ) \operatorname{Attn}(.) roman_Attn ( . ) はアテンション操作を表す。スケーリング係数 s 𝐱 subscript 𝑠 𝐱 s_{{\bf x}} italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT は、𝐜 𝐱 subscript 𝐜 𝐱 {\bf c}_{\bf x} bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT が生成される出力に与える影響を制御するために使用される。Q l = W Q 𝐙 l subscript 𝑄 𝑙 superscript 𝑊 𝑄 subscript 𝐙 𝑙 Q_{l}=W^{Q}{\bf Z}_{l} italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_Q end_POSTSUPERSCRIPT bold_Z start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT は重み行列 W Q superscript 𝑊 𝑄 W^{Q} italic_W start_POSTSUPERSCRIPT italic_Q end_POSTSUPERSCRIPT によって射影されたクエリ行列である。テキスト特徴 𝐜 y subscript 𝐜 𝑦 {\bf c}_{y} bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT のキー行列とバリュー行列はそれぞれ K y = W y K 𝐜 y subscript 𝐾 𝑦 subscript superscript 𝑊 𝐾 𝑦 subscript 𝐜 𝑦 K_{y}=W^{K}_{y}{\bf c}_{y} italic_K start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT と V y = W y V 𝐜 y subscript 𝑉 𝑦 subscript superscript 𝑊 𝑉 𝑦 subscript 𝐜 𝑦 V_{y}=W^{V}_{y}{\bf c}_{y} italic_V start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT であり、画像特徴 𝐜 𝐱 subscript 𝐜 𝐱 {\bf c}_{\bf x} bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT の射影されたキー行列とバリュー行列は K 𝐱 = W 𝐱 K 𝐜 𝐱 subscript 𝐾 𝐱 subscript superscript 𝑊 𝐾 𝐱 subscript 𝐜 𝐱 K_{\bf x}=W^{K}_{\bf x}{\bf c}_{\bf x} italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT と V 𝐱 = W 𝐱 V 𝐜 𝐱 subscript 𝑉 𝐱 subscript superscript 𝑊 𝑉 𝐱 subscript 𝐜 𝐱 V_{\bf x}=W^{V}_{\bf x}{\bf c}_{\bf x} italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT である。注目すべきは、2つの重み行列 W 𝐱 K subscript superscript 𝑊 𝐾 𝐱 W^{K}_{\bf x} italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT と W 𝐱 V subscript superscript 𝑊 𝑉 𝐱 W^{V}_{\bf x} italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT のみが学習可能であり、残りの重みは事前学習済み拡散モデルの元の挙動を保持するために凍結されたままであることである。
4 Proposed Method
我々の目標は、ワンステップのテキストから画像への生成モデルであるSBv2を用いて、即時的な画像編集を可能にすることである。セクション 4.1 では、SBv2を通過させることでソース画像を再構築する際に反転ノイズを予測する、ワンステップの反転ネットワークを開発する。このインバージョンネットワークに対して二段階の学習戦略 を導入し、さらなる再学習なしに任意の入力画像の単一ステップでの再構築を可能にする。概要は図 3 に示されている。セクション 4.2 で説明するように、推論時には自己誘導編集マスクを使用して編集領域を特定する。その後、我々のアテンション再スケーリング技術がこのマスクを利用して、背景を保持しながら分離された編集を実現し、編集の強度を制御する。
4.1 Inversion Network and Two-stage Training
合成画像(SBv2のようなモデルによって生成された)または実画像である可能性のある入力画像が与えられた場合、我々の最初の目的はSBv2モデルを使用してそれを反転および再構築することである。これを達成するために、我々は1ステップの反転ネットワーク 𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT を開発し、画像潜在空間 𝐳 𝐳 {\bf z} bold_z をノイズ ϵ ^ = 𝐅 θ ( 𝐳 , 𝐜 y ) ^ bold-italic-ϵ subscript 𝐅 𝜃 𝐳 subscript 𝐜 𝑦 \hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},{\bf c}_{y}) over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) に変換し、それをSBv2に戻して再構築された潜在空間 𝐳 ^ = 𝐆 ( ϵ ^ , 𝐜 y ) = 𝐆 ( 𝐅 θ ( 𝐳 , 𝐜 y ) , 𝐜 y ) . ^ 𝐳 𝐆 ^ bold-italic-ϵ subscript 𝐜 𝑦 𝐆 subscript 𝐅 𝜃 𝐳 subscript 𝐜 𝑦 subscript 𝐜 𝑦 \hat{{\bf z}}={\bf G}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{y})={\bf G}(%
{\bf F}_{\theta}({\bf z},{\bf c}_{y}),{\bf c}_{y}). over^ start_ARG bold_z end_ARG = bold_G ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) = bold_G ( bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) . を計算する。
合成画像の場合、𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT のトレーニングは straightforward であり、ペア ( ϵ , 𝐳 ) bold-italic-ϵ 𝐳 (\mbox{\boldmath{$\epsilon$}},{\bf z}) ( bold_italic_ϵ , bold_z ) を用いる。ここで、ϵ bold-italic-ϵ \epsilon bold_italic_ϵ は 𝐳 𝐳 {\bf z} bold_z を生成するために使用されたノイズであり、ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG を ϵ bold-italic-ϵ \epsilon bold_italic_ϵ に直接回帰させ、反転されたノイズをSBv2の入力ノイズ分布と整合させることができる。しかし、実画像の場合、ドメインギャップが課題となる。元のノイズ ϵ bold-italic-ϵ \epsilon bold_italic_ϵ が利用できないため、回帰目的を計算できず、潜在的に ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG が望ましい分布から逸脱する可能性がある。以下のセクションでは、我々の反転ネットワークと、これらの課題を効果的に克服するために設計された2段階トレーニング戦略について議論する。
我々の反転ネットワーク 𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT は、1ステップ拡散モデル 𝐆 𝐆 {\bf G} bold_G のアーキテクチャに従い、𝐆 𝐆 {\bf G} bold_G の重みで初期化される。しかし、我々はこのアプローチが最適ではないことを発見した:𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT によって予測された反転ノイズ ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG は入力画像を完全に再構築しようとし、入力からの特定のパターンに過剰適合してしまう。このテーラリングにより、ノイズが入力特徴に過度に依存し、編集の柔軟性が制限される。
これを克服するために、我々は1ステップジェネレータ 𝐆 𝐆 {\bf G} bold_G 内に補助的な画像条件付きブランチ(IP-Adapter [36 ] に類似)を導入し、𝐆 IP superscript 𝐆 IP {\bf G}^{\text{IP}} bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT と名付けた。このブランチは、入力画像 𝐱 𝐱 {\bf x} bold_x からエンコードされた画像特徴をテキストプロンプト y 𝑦 y italic_y と共に統合し、再構築を支援し、𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT が入力画像から広範な視覚的詳細を埋め込む必要性を減少させる。このアプローチは ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG の負担を効果的に軽減し、再構築能力と編集能力の両方を向上させる。我々は反転ノイズ ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG と再構築された画像潜在空間 𝐳 ^ ^ 𝐳 \hat{{\bf z}} over^ start_ARG bold_z end_ARG を以下のように計算する:
ϵ ^ = 𝐅 θ ( 𝐳 , c y ) , 𝐳 ^ = 𝐆 IP ( ϵ ^ , 𝐜 y , 𝐜 𝐱 ) . formulae-sequence ^ bold-italic-ϵ subscript 𝐅 𝜃 𝐳 subscript 𝑐 𝑦 ^ 𝐳 superscript 𝐆 IP ^ bold-italic-ϵ subscript 𝐜 𝑦 subscript 𝐜 𝐱 \hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},c_{y}),\quad\hat{{%
\bf z}}={\bf G}^{\text{IP}}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{y},{%
\bf c}_{{\bf x}}). over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , over^ start_ARG bold_z end_ARG = bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) .
(4)
図4 : ステージ2の正則化損失なしおよびありで訓練された場合の、我々の反転ネットワークによって予測された反転ノイズの比較。
ステージ1:合成画像によるトレーニング。
上述のように、このステージは反転ネットワーク 𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT をテキストから画像への拡散ネットワーク 𝐆 𝐆 {\bf G} bold_G (すなわちSBv2)からサンプリングされた合成トレーニングデータで事前訓練することを目的としている。図 3 では、ステージ1のトレーニングの流れをオレンジ色 で視覚化している。トレーニングサンプルのペア ( ϵ , 𝐳 ) bold-italic-ϵ 𝐳 (\mbox{\boldmath{$\epsilon$}},{\bf z}) ( bold_italic_ϵ , bold_z ) は以下のように作成される:
ϵ ∼ 𝒩 ( 0 , 1 ) , 𝐳 = 𝐆 ( ϵ , 𝐜 y ) . formulae-sequence similar-to bold-italic-ϵ 𝒩 0 1 𝐳 𝐆 bold-italic-ϵ subscript 𝐜 𝑦 \mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,1),\quad{\bf z}={\bf G}(\mbox{%
\boldmath{$\epsilon$}},{\bf c}_{y}). bold_italic_ϵ ∼ caligraphic_N ( 0 , 1 ) , bold_z = bold_G ( bold_italic_ϵ , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) .
(5)
我々は再構築損失 ℒ rec stage1 subscript superscript ℒ stage1 rec \mathcal{L}^{\text{stage1}}_{\text{rec}} caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT と回帰損失 ℒ regr stage1 subscript superscript ℒ stage1 regr \mathcal{L}^{\text{stage1}}_{\text{regr}} caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT を組み合わせて、反転ネットワーク 𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT とIP-Adapterブランチの一部(画像条件のための線形マッピングとクロスアテンション層を含む)をトレーニングする。回帰損失 ℒ regr stage1 subscript superscript ℒ stage1 regr \mathcal{L}^{\text{stage1}}_{\text{regr}} caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT は、𝐅 θ ( . ) {\bf F}_{\theta}(.) bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( . ) が ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG を ϵ bold-italic-ϵ \epsilon bold_italic_ϵ に回帰させることで、SBv2の入力ノイズ分布に近い反転ノイズを生成するよう促す。これにより、反転ノイズが多変量正規分布に近い状態を保つことが保証され、先行研究 [18 ] で示されているように、効果的な編集可能性にとって重要である。一方、再構築損失 ℒ rec stage1 subscript superscript ℒ stage1 rec \mathcal{L}^{\text{stage1}}_{\text{rec}} caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT は、再構築された潜在空間 𝐳 ^ ^ 𝐳 \hat{{\bf z}} over^ start_ARG bold_z end_ARG と元のソース潜在空間 𝐳 𝐳 {\bf z} bold_z の整合性を強制し、入力画像の詳細を保持する。要約すると、トレーニング目的は以下の通りである:
ℒ rec stage1 = ‖ 𝐳 − 𝐳 ^ ‖ 2 2 , ℒ regr stage1 = ‖ ϵ − ϵ ^ ‖ 2 2 , formulae-sequence subscript superscript ℒ stage1 rec subscript superscript norm 𝐳 ^ 𝐳 2 2 subscript superscript ℒ stage1 regr subscript superscript norm bold-italic-ϵ ^ bold-italic-ϵ 2 2 \displaystyle\mathcal{L}^{\text{stage1}}_{\text{rec}}=||{\bf z}-\hat{{\bf z}}|%
|^{2}_{2},\quad\mathcal{L}^{\text{stage1}}_{\text{regr}}=||\mbox{\boldmath{$%
\epsilon$}}-\hat{\mbox{\boldmath{$\epsilon$}}}||^{2}_{2}, caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT = | | bold_z - over^ start_ARG bold_z end_ARG | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT = | | bold_italic_ϵ - over^ start_ARG bold_italic_ϵ end_ARG | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ,
(6)
ℒ stage1 = ℒ rec stage1 + λ stage1 . ℒ regr stage1 , formulae-sequence superscript ℒ stage1 superscript subscript ℒ rec stage1 superscript 𝜆 stage1 superscript subscript ℒ regr stage1 \mathcal{L}^{\text{stage1}}=\mathcal{L}_{\text{rec}}^{\text{stage1}}+\lambda^{%
\text{stage1}}.\mathcal{L}_{\text{regr}}^{\text{stage1}}, caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT = caligraphic_L start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT + italic_λ start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT . caligraphic_L start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT ,
(7)
ここで、トレーニング中は λ stage1 = 1 superscript 𝜆 stage1 1 \lambda^{\text{stage1}}=1 italic_λ start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT = 1 と設定する。このステージの後、我々の反転フレームワークはSBv2モデルによって生成されたソース入力画像を再構築できるようになる。しかし、ドメインギャップのため実画像では機能しないため、ステージ2でのトレーニングを継続する動機となる。
ステージ2:実画像によるトレーニング。
我々はステージ1の再構築損失を、Deep Image Structure and Texture Similarity (DISTS)メトリック [7 ] を使用した知覚損失に置き換える。この知覚損失 ℒ perceptual stage2 = DISTS ( 𝐱 , 𝐱 ^ ) subscript superscript ℒ stage2 perceptual DISTS 𝐱 ^ 𝐱 \mathcal{L}^{\text{stage2}}_{\text{perceptual}}=\operatorname{DISTS}({\bf x},%
\hat{{\bf x}}) caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT = roman_DISTS ( bold_x , over^ start_ARG bold_x end_ARG ) は、𝐱 ^ = 𝒟 ( 𝐳 ^ ) ^ 𝐱 𝒟 ^ 𝐳 \hat{{\bf x}}=\mathcal{D}(\hat{{\bf z}}) over^ start_ARG bold_x end_ARG = caligraphic_D ( over^ start_ARG bold_z end_ARG ) (ここで 𝐳 ^ = 𝐆 IP ( ϵ ^ , 𝐜 y , 𝐜 𝐱 ) ^ 𝐳 superscript 𝐆 IP ^ bold-italic-ϵ subscript 𝐜 𝑦 subscript 𝐜 𝐱 \hat{{\bf z}}={\bf G}^{\text{IP}}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{%
y},{\bf c}_{{\bf x}}) over^ start_ARG bold_z end_ARG = bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) )と実際の入力画像 𝐱 𝐱 {\bf x} bold_x を比較する。DISTSは実画像で訓練されており、構造とテクスチャの知覚的詳細を捉えるため、ステージ1で使用されたピクセル単位の再構築損失よりも堅牢な視覚的類似性の尺度となる。
このステージでは、SBv2で 𝐳 𝐳 {\bf z} bold_z を再構築するために使用された元のノイズ ϵ bold-italic-ϵ \epsilon bold_italic_ϵ が利用できないため、ステージ1の回帰目的を直接適用することはできない。ステージ2を ℒ perceptual stage2 subscript superscript ℒ stage2 perceptual \mathcal{L}^{\text{stage2}}_{\text{perceptual}} caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT のみでトレーニングすると、知覚損失が ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG にソース画像のパターンを捉えるよう促すため、反転ノイズ ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG が理想的なノイズ分布 𝒩 ( 0 , I ) 𝒩 0 𝐼 \mathcal{N}(0,I) caligraphic_N ( 0 , italic_I ) から逸脱する可能性がある。これは再構築を支援するが、将来の編集の柔軟性を制限する(図 4 の2列目を参照)。これに対処するため、我々はScore Distillation Sampling (SDS)にインスパイアされた新しい正則化項 ℒ regu stage2 superscript subscript ℒ regu stage2 \mathcal{L}_{\text{regu}}^{\text{stage2}} caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT を導入する(式 2 で定義)。SDSの勾配は、最適化された潜在空間をデータ多様体の密な領域に導く。実画像の潜在空間 𝐳 = ℰ ( 𝐱 ) 𝐳 ℰ 𝐱 {\bf z}=\mathcal{E}({\bf x}) bold_z = caligraphic_E ( bold_x ) がすでに高密度領域にあることを考えると、我々は最適化の焦点をノイズ項 ϵ bold-italic-ϵ \epsilon bold_italic_ϵ に移し、我々の反転ノイズを 𝐳 𝐳 {\bf z} bold_z に加えられたノイズとして扱う。そして、損失勾配を以下のように計算する:
ϵ ^ = 𝐅 θ ( 𝐳 , 𝐜 y ) , 𝐳 t = α t 𝐳 + σ t ϵ ^ , formulae-sequence ^ bold-italic-ϵ subscript 𝐅 𝜃 𝐳 subscript 𝐜 𝑦 subscript 𝐳 𝑡 subscript 𝛼 𝑡 𝐳 subscript 𝜎 𝑡 ^ bold-italic-ϵ \displaystyle\hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},{\bf c%
}_{y}),\quad{\bf z}_{t}=\alpha_{t}{\bf z}+\sigma_{t}\hat{\mbox{\boldmath{$%
\epsilon$}}}, over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_z + italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT over^ start_ARG bold_italic_ϵ end_ARG ,
∇ θ ℒ regu stage2 ≜ 𝔼 t , ϵ ^ [ w ( t ) ( ϵ ^ − ϵ ϕ ( 𝐳 t , t , 𝐜 y ) ) ∂ ϵ ^ ∂ θ ] . ≜ subscript ∇ 𝜃 superscript subscript ℒ regu stage2 subscript 𝔼 𝑡 ^ bold-italic-ϵ
delimited-[] 𝑤 𝑡 ^ bold-italic-ϵ subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ 𝜃 \displaystyle\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}}%
\triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)\left(%
\hat{\mbox{\boldmath{$\epsilon$}}}-\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}%
_{t},t,{\bf c}_{y})\right)\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{%
\partial\theta}\right]. ∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( over^ start_ARG bold_italic_ϵ end_ARG - bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) ) divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ] .
(8)
我々の正則化勾配は ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG の代わりに 𝐳 𝐳 {\bf z} bold_z を最適化するため、式 2 とは逆の符号を持つ(導出の詳細は付録参照)。ステージ1から初期化した後、ϵ ^ ^ bold-italic-ϵ \hat{\bm{\epsilon}} over^ start_ARG bold_italic_ϵ end_ARG はガウシアンノイズ 𝒩 ( 0 , 1 ) 𝒩 0 1 \mathcal{N}(0,1) caligraphic_N ( 0 , 1 ) に似ており、ノイズの加えられた潜在空間 𝐳 t subscript 𝐳 𝑡 {\bf z}_{t} bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT はマルチステップティーチャーのトレーニングデータと互換性がある。これにより、ティーチャーは ϵ ϕ ( 𝐳 t , t , 𝐜 y ) subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 \mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y}) bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) を正確に予測し、ϵ ϕ ( 𝐳 t , t , 𝐜 y ) − ϵ ^ ≈ 𝟎 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ 0 \bm{\epsilon}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\bm{\epsilon}}\approx%
\mathbf{0} bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ≈ bold_0 を達成できる。したがって、ϵ ^ ^ bold-italic-ϵ \hat{\mbox{\boldmath{$\epsilon$}}} over^ start_ARG bold_italic_ϵ end_ARG は同じままである。時間が経つにつれて、再構築損失は 𝐅 θ subscript 𝐅 𝜃 {\bf F}_{\theta} bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT に再構築に適した反転ノイズ ϵ ^ ^ bold-italic-ϵ \hat{\bm{\epsilon}} over^ start_ARG bold_italic_ϵ end_ARG を生成するよう促し、𝒩 ( 0 , 1 ) 𝒩 0 1 \mathcal{N}(0,1) caligraphic_N ( 0 , 1 ) から逸脱し、馴染みのない 𝐳 t subscript 𝐳 𝑡 \mathbf{z}_{t} bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT を作り出す。結果として生じる勾配は、元の分布からの過度の逸脱を防ぎ、図 4 の3列目に示すように、ステージ1からの安定性を強化する。
ステージ1と同様に、我々は知覚損失 ℒ perceptual stage2 subscript superscript ℒ stage2 perceptual \mathcal{L}^{\text{stage2}}_{\text{perceptual}} caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT と正則化損失 ℒ regu stage2 subscript superscript ℒ stage2 regu \mathcal{L}^{\text{stage2}}_{\text{regu}} caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT を組み合わせ、λ stage2 = 1 superscript 𝜆 stage2 1 \lambda^{\text{stage2}}=1 italic_λ start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT = 1 と設定する。トレーニング中は、反転ネットワークのみをトレーニングし、IP-Adapterブランチと分離されたクロスアテンション層は凍結したままにして、ステージ1で学習した画像事前特徴を保持する。ステージ2のトレーニングの流れは 図 3 でティール色 で視覚化されている。
5 Experiments
5.1 Experimental Setup
データセットと評価指標。
我々は、PieBench [11 ] を用いて編集性能を評価する。これは10種類の多様な編集タイプにわたる700サンプルを含む人気のベンチマークである。各サンプルには、ソースプロンプト、編集プロンプト、指示プロンプト、ソース画像、および手動で注釈付けされた編集マスクが含まれる。PieBenchの指標を使用し、我々は背景保存と編集セマンティクスの両方を評価し、高品質な編集のためにそれらのバランスを取ることを目指す。背景保存は、ソース画像と編集された画像の未編集領域におけるPSNRとMSEスコアで評価される。編集の整合性は、CLIP-WholeとCLIP-Editedスコアを用いて評価され、それぞれ全画像と編集領域とプロンプトの整合性を測定する。
実装の詳細。
我々の反転ネットワークは、SBv2のアーキテクチャに基づいており、ステージ1のトレーニングではSBv2の重みで初期化される。ステージ2では、ステージ1の事前学習済み重みから継続してトレーニングを行う。画像エンコーディングには、IP-Adapter [36 ] のデザインを採用し、事前学習済みのCLIP画像エンコーダーに続いて、画像埋め込みを拡散モデルのテキスト特徴次元に一致する長さN = 4 𝑁 4 N=4 italic_N = 4 の特徴列にマッピングする小さな投影ネットワークを使用する。両ステージとも、Adam最適化器 [12 ] を使用し、重み減衰は1e-4、学習率は1e-5、そして各イテレーションで指数移動平均(EMA)を適用する。ステージ1では、バッチサイズ4で100kイテレーションにわたり、SBv2で生成された合成サンプルとJourneyDBデータセット [32 ] からの40kのキャプションをペアにしてトレーニングを行う。ステージ2では、バッチサイズ1で、CommonCanvasデータセット [9 ] からの5k実画像とそのプロンプト説明を使用して180kイテレーションにわたりトレーニングを行う。すべての実験は、単一のNVIDIA A100 40GB GPUで実施される。
図6 : 編集結果の比較。最初の列はソース画像を示し、ソースプロンプトと編集プロンプトは各行の下に記載されている。
比較手法。 我々は、代表的な多段階および最近導入された少数段階の画像編集手法とSwiftEditの広範な比較を行う。多段階手法については、Prompt-to-Prompt (P2P) [10 ] 、MasaCtrl [3 ] 、Pix2Pix-Zero (P2P-Zero) [21 ] 、およびPlug-and-Play [33 ] を選択し、DDIM [29 ] 、Null-text Inversion (NT-Inv) [18 ] 、Direct Inversion [11 ] などの対応する反転手法と組み合わせる。少数段階手法については、Renoise [8 ] 、TurboEdit [6 ] 、およびICD [31 ] を選択する。
5.2 Comparison with Prior Methods
図7 : ユーザー調査。
表2 : 反転フレームワークの設計が実画像の再構成に与える影響。
表3: 損失が編集セマンティクススコアに与える影響。
定量的結果。 表 1 において、我々はSwiftEditと様々な多段階および少段階の画像編集手法を比較した定量的結果を示している。全体として、SwiftEditは我々の1段階の反転および編集プロセスにより、競争力のある編集性能を維持しつつ、優れた時間効率を示している。多段階手法と比較して、SwiftEditは背景保存スコアで強力な結果を示し、ほとんどのアプローチを上回っている。NT-Inv + P2Pよりもわずかに低いPSNRスコアを達成しているが、より良いMSEスコアを持ち、約500倍高速である。CLIPセマンティクスに関しては、CLIP-Whole(2番目に良い)とCLIP-Editedで競争力のある結果を達成している。少段階手法と比較すると、SwiftEditは背景保存で2番目に良い結果(ICDが最良)を示し、CLIPセマンティクスでも2番目に良い結果(TurboEditが先行)を示しつつ、これらの手法よりも少なくとも5倍高速という速度の優位性を維持している。SwiftEditはユーザー定義の編集マスクを許容するため、PieBench [11 ] からの正解編集マスクを使用した結果も報告している。表 1 の最後の行に示されているように、正解マスクを使用した結果はわずかな改善を示しており、我々の自己誘導編集マスクがほぼ正解と同程度の精度であることを示している。
定性的結果。 図 6 において、我々はSwiftEditと他の手法によって生成された編集結果の視覚的比較を示している。図示されているように、SwiftEditは与えられた編集プロンプトに忠実に従いつつ、重要な背景の詳細を保持することに成功している。このバランスは、SwiftEditが高品質な編集を生成しつつ、大幅に高速であるという点で、他の多段階手法に対するSwiftEditの強みを示している。
少段階手法と比較すると、SwiftEditは編集品質において明確な優位性を示している。ICD [31 ] は背景保存で高いスコアを示しているが(表 1 に示されている通り)、しばしばプロンプトに合致する編集の生成に失敗している。TurboEdit [6 ] は、SwiftEditよりも高いCLIPスコアを達成しているが、図 6 の1行目、2行目、5行目に見られるように、重要な背景要素を損なう低品質な結果を生成している。これはさらに、SwiftEditがプロンプトとの整合性と背景保存を伴う高品質な編集を生成する能力を強調している。
ユーザー調査。 我々は140人の参加者を対象に、異なる編集結果に対する選好を評価するユーザー調査を実施した。PieBench [11 ] からランダムに選んだ20の編集プロンプトを使用し、参加者は3つの手法(Null-text Inversion [18 ] 、TurboEdit [6 ] 、我々のSwiftEdit)によって編集された画像を比較した。参加者は背景保存と編集セマンティクスに基づいて最も適切な編集を選択した。図 7 に示されているように、SwiftEditが好まれる選択肢となり、編集セマンティクスで47.8%、背景保存で40%が支持を集め、速度においても他の手法を上回った。
6 Ablation Study
反転フレームワーク設計の分析。
我々は、反転フレームワークと2段階トレーニングが画像再構成に与える影響を評価するためにアブレーション実験を行った。我々の2段階戦略は、1ステップ反転フレームワークの有効性にとって不可欠である。表 2 に示すように、いずれかの段階を省略すると再構成品質が低下する。デカップルされたクロスアテンションを持つIP-Adapterは重要であり、これを削除すると行3に見られるように再構成が不十分になる。
編集品質に対する損失の影響。
[18 ] が指摘しているように、編集可能なノイズは柔軟性を確保するために正規分布に従う必要がある。我々は、損失関数がノイズの編集可能性に与える影響を評価するためにアブレーション実験を行った。表 3 に示すように、いずれかの損失成分を省略すると、CLIP Semanticsで測定された編集可能性が低下する一方で、両方を使用すると最高スコアが得られる。これは、編集可能性を高めるノイズ分布を維持する上で各損失が重要であることを強調している。
7 Conclusion and Discussion
結論。 本稿では、0.23秒で瞬時に編集可能な、超高速テキストガイド画像編集ツールSwiftEditを紹介する。広範な実験により、SwiftEditが高品質な結果を提供しつつ、そのワンステップの反転と編集プロセスによって、速度面で従来の手法を大幅に上回ることが実証された。我々は、SwiftEditがインタラクティブな画像編集を促進することを期待している。
考察。 SwiftEditは瞬時レベルの画像編集を実現しているが、課題は残っている。その性能はまだSBv2生成器の品質に依存しており、したがって、訓練データのバイアスが我々の反転ネットワークに転移する可能性がある。今後の研究では、瞬時レベルからリアルタイム編集能力への移行によって手法を改善したいと考えている。この強化は現在の限界に対処し、様々な分野に大きな影響を与えるだろう。
この補足資料では、まずセクション 8 で概説したステージ2で使用される正則化損失の詳細な導出を提供する。次に、セクション 9 で、様々なワンステップ拡散モデルに関する追加のアブレーション研究と、s edit subscript 𝑠 edit s_{\text{edit}} italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT 、s non-edit subscript 𝑠 non-edit s_{\text{non-edit}} italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT 、およびs y subscript 𝑠 𝑦 s_{y} italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT の異なるスケールに関する感度分析を提示する。最後に、セクション 10 でさらなる定性的結果を含め、セクション 11 で社会的影響について議論する。
8 Derivation of the Regularization Loss in Stage 2
我々は、本稿の式(8)で定義された提案する正則化損失の勾配の詳細な導出を提供する。正則化損失は以下のように定式化される:
ℒ regu stage2 = 𝔼 t , ϵ ^ [ w ( t ) ‖ ϵ ϕ ( 𝐳 t , t , 𝐜 y ) − ϵ ^ ‖ 2 2 ] , superscript subscript ℒ regu stage2 subscript 𝔼 𝑡 ^ bold-italic-ϵ
delimited-[] 𝑤 𝑡 subscript superscript norm subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ 2 2 \mathcal{L}_{\text{regu}}^{\text{stage2}}=\mathbb{E}_{t,\hat{\mbox{\boldmath{$%
\epsilon$}}}}\left[w(t)\|\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{%
\bf c}_{y})-\hat{\mbox{\boldmath{$\epsilon$}}}\|^{2}_{2}\right]\,, caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ∥ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ] ,
(10)
ここで、 ϵ ϕ ( . ) \mbox{\boldmath{$\epsilon$}}_{\phi}(.) bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( . ) は教師デノイジングUNetであり、我々の実装ではSD 2.1を使用している。
我々の反転ネットワークのパラメータ θ 𝜃 \theta italic_θ に関する損失の勾配は以下のように計算される:
∇ θ ℒ regu stage2 ≜ 𝔼 t , ϵ ^ [ w ( t ) ( ϵ ϕ ( 𝐳 t , t , 𝐜 y ) − ϵ ^ ) ( ∂ ϵ ϕ ( 𝐳 t , t , 𝐜 y ) ∂ θ − ∂ ϵ ^ ∂ θ ) ] , ≜ subscript ∇ 𝜃 superscript subscript ℒ regu stage2 subscript 𝔼 𝑡 ^ bold-italic-ϵ
delimited-[] 𝑤 𝑡 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 𝜃 ^ bold-italic-ϵ 𝜃 \begin{split}\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}}%
\triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)(\mbox{%
\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\mbox{\boldmath{%
$\epsilon$}}}\right)\\
(\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})}%
{\partial\theta}-\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{\partial%
\theta})],\end{split} start_ROW start_CELL ∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ) end_CELL end_ROW start_ROW start_CELL ( divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARG - divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ) ] , end_CELL end_ROW
(11)
ここで、すべての定数を w ( t ) 𝑤 𝑡 w(t) italic_w ( italic_t ) に吸収している。項 ∂ ϵ ϕ ( 𝐳 t , t , 𝐜 y ) ∂ θ subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 𝜃 \frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})}{%
\partial\theta} divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARG を展開すると、以下のようになる:
∂ ϵ ϕ ( 𝐳 t , t , c y ) ∂ θ = ∂ ϵ ϕ ( 𝐳 t , t , c y ) ∂ 𝐳 t ∂ 𝐳 t ∂ 𝐳 ∂ 𝐳 ∂ θ . subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝑐 𝑦 𝜃 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝑐 𝑦 subscript 𝐳 𝑡 subscript 𝐳 𝑡 𝐳 𝐳 𝜃 \frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,c_{y})}{%
\partial\theta}=\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},%
t,c_{y})}{\partial{\bf z}_{t}}\frac{\partial{\bf z}_{t}}{\partial{\bf z}}\frac%
{\partial{\bf z}}{\partial\theta}. divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARG = divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG divide start_ARG ∂ bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG ∂ bold_z end_ARG divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG .
(12)
𝐳 𝐳 {\bf z} bold_z (実画像から抽出)と θ 𝜃 \theta italic_θ は独立しているため、 ∂ 𝐳 ∂ θ = 0 𝐳 𝜃 0 \frac{\partial{\bf z}}{\partial\theta}=0 divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG = 0 となる。したがって、 式 11 を以下のように変形できる:
∇ θ ℒ regu stage2 subscript ∇ 𝜃 superscript subscript ℒ regu stage2 \displaystyle\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}} ∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT
≜ 𝔼 t , ϵ ^ [ w ( t ) ( ϵ ϕ ( 𝐳 t , t , 𝐜 y ) − ϵ ^ ) ( − ∂ ϵ ^ ∂ θ ) ] ≜ absent subscript 𝔼 𝑡 ^ bold-italic-ϵ
delimited-[] 𝑤 𝑡 subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ ^ bold-italic-ϵ 𝜃 \displaystyle\triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[%
w(t)(\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\mbox%
{\boldmath{$\epsilon$}}})(-\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{%
\partial\theta})\right] ≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ) ( - divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ) ]
(13)
= 𝔼 t , ϵ ^ [ w ( t ) ( ϵ ^ − ϵ ϕ ( 𝐳 t , t , 𝐜 y ) ) ∂ ϵ ^ ∂ θ ] , absent subscript 𝔼 𝑡 ^ bold-italic-ϵ
delimited-[] 𝑤 𝑡 ^ bold-italic-ϵ subscript bold-italic-ϵ italic-ϕ subscript 𝐳 𝑡 𝑡 subscript 𝐜 𝑦 ^ bold-italic-ϵ 𝜃 \displaystyle=\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)(\hat%
{\mbox{\boldmath{$\epsilon$}}}-\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t}%
,t,{\bf c}_{y}))\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{\partial%
\theta}\right], = blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( over^ start_ARG bold_italic_ϵ end_ARG - bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) ) divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ] ,
(14)
これは、本稿で議論したように、 𝐳 𝐳 {\bf z} bold_z 損失に関するSDS勾配と反対の符号を持つ。
9 Additional Ablation Studies
他のワンステップテキスト画像生成モデルとの組み合わせ。
本稿で述べたように、我々の反転フレームワークはSBv2に限定されず、他のワンステップテキスト画像生成器とシームレスに統合できる。これを実証するために、我々はSBv2を代替モデルに置き換える実験を行った。代替モデルにはDMD2 [ 37 ] 、InstaFlow [ 14 ] 、およびSBv1 [ 19 ] が含まれる。これらの実験では、各生成器の構造と事前学習済みの重み 𝐆 𝐆 {\bf G} bold_G を使用して、ステージ1の我々の反転ネットワークを初期化した。具体的には、DMD2はSD 1.5のバックボーンを使用して実装され、InstaFlowはSD 1.5を使用している。両ステージのすべての学習実験は、本稿の表1に示した実験と同様に、同じデータセットで実施された。
図 8 は、我々の反転フレームワークを異なるワンステップ画像生成器と統合して得られた編集結果を示している。示されているように、これらのワンステップモデルは我々のフレームワークとうまく統合され、効果的な編集を可能にしている。さらに、定量的結果は 表 4 に示されている。結果は、我々の反転フレームワークとSBv2(SwiftEdit)を組み合わせたものが、CLIP-WholeとCLIP-Editedスコアの観点から最高の編集性能を達成し、一方でDMD2は背景保持において優れた性能を示していることを示している。
表4 : 我々の手法と他のワンステップテキスト画像生成モデルを組み合わせたアブレーション研究。† † \dagger † はこれらのモデルがSD 1.5に基づいていることを意味し、‡ ‡ \ddagger ‡ はこれらのモデルがSD 2.1に基づいていることを意味する。
図8 : 我々の反転フレームワークを他のワンステップテキスト画像生成モデルと組み合わせた場合の定性的結果。
スケールの変動。
本稿の主要部分の式(9)で使用されるスケールの変動の効果をより良く理解するために、PieBenchベンチマークからランダムに選んだ100のテストサンプルに対するSwiftEditの性能を評価する2つの包括的なプロットを提示する。特に、これらのプロットは s edit ∈ { 0 , 0.2 , 0.4 , 0.6 , 0.8 , 1 } subscript 𝑠 edit 0 0.2 0.4 0.6 0.8 1 s_{\text{edit}}\in\{0,0.2,0.4,0.6,0.8,1\} italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT ∈ { 0 , 0.2 , 0.4 , 0.6 , 0.8 , 1 } の変動( 図 9(a) 参照)または s y ∈ { 0.5 , 1 , 1.5 , 2 , 2.5 , 3 , 3.5 , 4 } subscript 𝑠 y 0.5 1 1.5 2 2.5 3 3.5 4 s_{\text{y}}\in\{0.5,1,1.5,2,2.5,3,3.5,4\} italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT ∈ { 0.5 , 1 , 1.5 , 2 , 2.5 , 3 , 3.5 , 4 } の変動( 図 9(b) 参照)を異なるレベルの s non-edit ∈ { 0.2 , 0.4 , 0.6 , 0.8 , 1 } subscript 𝑠 non-edit 0.2 0.4 0.6 0.8 1 s_{\text{non-edit}}\in\{0.2,0.4,0.6,0.8,1\} italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT ∈ { 0.2 , 0.4 , 0.6 , 0.8 , 1 } で示している。 図 9(a) に示されているように、異なるレベルの s non-edit subscript 𝑠 non-edit s_{\text{non-edit}} italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT において、より低い s edit subscript 𝑠 edit s_{\text{edit}} italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT は一般的に編集のセマンティクス(CLIP-Editedスコア)を改善するが、背景の保存(PSNR)を若干損なうことが明らかである。逆に、より高い s y subscript 𝑠 y s_{\text{y}} italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT はプロンプトと画像の整合性(CLIP-Editedスコア、 図 9(b) )を向上させることができるが、過度の値( s y > 2 subscript 𝑠 y 2 s_{\text{y}}>2 italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT > 2 )はプロンプトとの整合性の結果を損なう可能性がある。我々のすべての実験において、我々はスケールパラメータのデフォルト設定として s edit = 0 subscript 𝑠 edit 0 s_{\text{edit}}=0 italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT = 0 、 s non-edit = 1 subscript 𝑠 non-edit 1 s_{\text{non-edit}}=1 italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT = 1 、および s y = 2 subscript 𝑠 y 2 s_{\text{y}}=2 italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT = 2 を使用している。
図9 : 異なるレベルのs non-edit subscript 𝑠 non-edit s_{\text{non-edit}} italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT におけるs edit subscript 𝑠 edit s_{\text{edit}} italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT とs y subscript 𝑠 𝑦 s_{y} italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT の変動が背景の保存と編集のセマンティクスに与える影響。
図10 : 我々が抽出したマスクの可視化と、各画像行の下に記述されたガイドテキストを使用して編集した結果。
図11 : 柔軟なプロンプトを用いた画像編集。 SwiftEditは、柔軟なソースと編集プロンプト入力(各画像の下に記載)で満足のいく再構成および編集結果を達成している。
図12 : 簡単なプロンプトによる顔のアイデンティティと表情の編集。ポートレート入力画像が与えられた場合、SwiftEditは単純なテキストによって誘導される様々な顔のアイデンティティと表情編集シナリオをわずか 0.23秒で実行することができる。
10 More Qualitative Results
自己誘導編集マスク。 図 10 では、我々の反転ネットワークから直接抽出された自己誘導編集マスクとともに、さらなる編集例を示している。
柔軟なプロンプト。
図 11 に示すように、SwiftEditは最小限のソースプロンプト入力でも高い忠実度で画像を再構成する。単一のキーワード(最後の3行)や、プロンプトなし(最初の2行)でも効果的に動作する。特筆すべきは、 図 11 の最後の行に示されるように、編集プロンプトでキーワードを組み合わせるだけで、SwiftEditが複雑な編集を容易に実行することである。これらの結果は、SwiftEditが高速で使いやすい編集ツールとしての能力を示している。
顔の同一性と表情の編集。 図 12 では、単純なソースプロンプト「man」と人物画像が与えられた場合、SwiftEditは 表情語 (各行に示される)と
同一性語 (各列に示される)を組み合わせた簡単な編集プロンプトによって、顔の同一性と表情の編集を達成できる。
図13 : PieBenchベンチマークにおける比較結果
図14 : PieBenchベンチマークにおける比較結果
図15 : PieBenchベンチマークにおける比較結果
PieBenchにおける追加結果。 図 13 、 14 および 15 では、PieBenchベンチマークにおける他の手法との広範な編集結果の比較を提供している。
11 Societal Impacts
AIを活用した視覚生成ツールであるSwiftEditは、シンプルなプロンプト入力を通じて、高速で高品質かつカスタマイズ可能な編集機能を提供し、様々な視覚創作タスクの効率を大幅に向上させる。しかしながら、このようなツールが非倫理的な目的に悪用される可能性があり、例えば、偽情報を拡散するために機密性の高い、あるいは有害なコンテンツを生成するなど、社会的な課題が生じる可能性がある。これらの懸念に対処することは不可欠であり、潜在的な誤用を軽減するために、AIによって操作された画像を検出し、局所化するための複数の進行中の研究が行われている。
References
Bau et al. [2019a]
David Bau, Jun-Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, and Antonio Torralba.
Inverting layers of a large generator.
In ICLR workshop , page 4, 2019a.
Bau et al. [2019b]
David Bau, Jun-Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, and Antonio Torralba.
Seeing what a gan cannot generate.
In Proceedings of the IEEE/CVF international conference on computer vision , pages 4502–4511, 2019b.
Cao et al. [2023]
Mingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie, and Yinqiang Zheng.
Masactrl: Tuning-free mutual self-attention control for consistent image synthesis and editing.
In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) , pages 22560–22570, 2023.
Creswell and Bharath [2018]
Antonia Creswell and Anil Anthony Bharath.
Inverting the generator of a generative adversarial network.
IEEE transactions on neural networks and learning systems , 30(7):1967–1974, 2018.
Dao et al. [2024]
Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, and Anh Tran.
Swiftbrush v2: Make your one-step diffusion model better than its teacher, 2024.
Deutch et al. [2024]
Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, and Daniel Cohen-Or.
Turboedit: Text-based image editing using few-step diffusion models, 2024.
Ding et al. [2020]
Keyan Ding, Kede Ma, Shiqi Wang, and Eero P. Simoncelli.
Image quality assessment: Unifying structure and texture similarity.
CoRR , abs/2004.07728, 2020.
Garibi et al. [2024]
Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or.
Renoise: Real image inversion through iterative noising, 2024.
Gokaslan et al. [2023]
Aaron Gokaslan, A Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, and Volodymyr Kuleshov.
Commoncanvas: An open diffusion model trained with creative-commons images.
arXiv preprint arXiv:2310.16825 , 2023.
Hertz et al. [2022]
Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or.
Prompt-to-prompt image editing with cross attention control, 2022.
Ju et al. [2024]
Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, and Qiang Xu.
Pnp inversion: Boosting diffusion-based editing with 3 lines of code.
International Conference on Learning Representations (ICLR) , 2024.
Kingma [2014]
Diederik P Kingma.
Adam: A method for stochastic optimization.
arXiv preprint arXiv:1412.6980 , 2014.
Lipton and Tripathi [2017]
Zachary C Lipton and Subarna Tripathi.
Precise recovery of latent vectors from generative adversarial networks.
arXiv preprint arXiv:1702.04782 , 2017.
Liu et al. [2024]
Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, and Qiang Liu.
Instaflow: One step is enough for high-quality diffusion-based text-to-image generation.
In International Conference on Learning Representations , 2024.
Luo et al. [2023]
Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, and Hang Zhao.
Latent consistency models: Synthesizing high-resolution images with few-step inference.
arXiv preprint arXiv:2310.04378 , 2023.
Ma et al. [2018]
Fangchang Ma, Ulas Ayaz, and Sertac Karaman.
Invertibility of convolutional generative networks from partial measurements.
Advances in Neural Information Processing Systems , 31, 2018.
Meng et al. [2023]
Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans.
On distillation of guided diffusion models.
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , pages 14297–14306, 2023.
Mokady et al. [2023]
Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or.
Null-text inversion for editing real images using guided diffusion models.
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) , pages 6038–6047, 2023.
Nguyen and Tran [2024]
Thuan Hoang Nguyen and Anh Tran.
Swiftbrush: One-step text-to-image diffusion model with variational score distillation, 2024.
Nguyen et al. [2024]
Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, and Cuong Pham.
Flexedit: Flexible and controllable diffusion-based object-centric image editing, 2024.
Parmar et al. [2023]
Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu.
Zero-shot image-to-image translation, 2023.
Perarnau et al. [2016]
Guim Perarnau, Joost Van De Weijer, Bogdan Raducanu, and Jose M Álvarez.
Invertible conditional gans for image editing.
arXiv preprint arXiv:1611.06355 , 2016.
Podell et al. [2023]
Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach.
Sdxl: Improving latent diffusion models for high-resolution image synthesis, 2023.
Rombach et al. [2022]
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer.
High-resolution image synthesis with latent diffusion models, 2022.
Saharia et al. [2022]
Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi.
Photorealistic text-to-image diffusion models with deep language understanding, 2022.
Salimans and Ho [2022]
Tim Salimans and Jonathan Ho.
Progressive distillation for fast sampling of diffusion models.
arXiv preprint arXiv:2202.00512 , 2022.
Sauer et al. [2024]
Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, and Robin Rombach.
Fast high-resolution image synthesis with latent adversarial diffusion distillation, 2024.
Sauer et al. [2025]
Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach.
Adversarial diffusion distillation.
In European Conference on Computer Vision , pages 87–103. Springer, 2025.
Song et al. [2020]
Jiaming Song, Chenlin Meng, and Stefano Ermon.
Denoising diffusion implicit models.
CoRR , abs/2010.02502, 2020.
Song et al. [2023]
Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever.
Consistency models, 2023.
Starodubcev et al. [2024]
Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, and Dmitry Baranchuk.
Invertible consistency distillation for text-guided image editing in around 7 steps.
arXiv preprint arXiv:2406.14539 , 2024.
Sun et al. [2024]
Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, et al.
Journeydb: A benchmark for generative image understanding.
Advances in Neural Information Processing Systems , 36, 2024.
Tumanyan et al. [2023]
Narek Tumanyan, Michal Geyer, Shai Bagon, and Tali Dekel.
Plug-and-play diffusion features for text-driven image-to-image translation.
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) , pages 1921–1930, 2023.
Wang et al. [2024]
Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, and Qifeng Chen.
High-fidelity gan inversion for image attribute editing, 2024.
Xia et al. [2022]
Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, and Ming-Hsuan Yang.
Gan inversion: A survey, 2022.
Ye et al. [2023]
Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang.
Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models.
2023.
Yin et al. [2024a]
Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, and William T. Freeman.
Improved distribution matching distillation for fast image synthesis, 2024a.
Yin et al. [2024b]
Tianwei Yin, Michaël Gharbi, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, and Taesung Park.
One-step diffusion with distribution matching distillation, 2024b.
Zhu et al. [2020]
Jiapeng Zhu, Yujun Shen, Deli Zhao, and Bolei Zhou.
In-domain gan inversion for real image editing, 2020.
Zhu et al. [2016]
Jun-Yan Zhu, Philipp Krähenbühl, Eli Shechtman, and Alexei A Efros.
Generative visual manipulation on the natural image manifold.
In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part V 14 , pages 597–613. Springer, 2016.