JaLMS
最新の AI 研究を日本語で解読

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

Trong-Tung Nguyen1  Quang Nguyen1  Khoi Nguyen1
Anh Tran1  Cuong Pham1,2
1VinAI Research  2Posts & Telecom. Inst. of Tech., Vietnam
Abstract

テキストガイドによる画像編集の最近の進歩により、ユーザーは多段階の拡散ベースのテキストから画像へのモデルの広範な事前知識を活用し、単純なテキスト入力を通じて画像編集を実行することが可能になった。しかしながら、これらの手法は、コストのかかる多段階の反転とサンプリングプロセスが関与するため、実世界やオンデバイスアプリケーションに必要とされる速度要求を満たせないことが多い。これに応えて、我々はSwiftEditを導入する。SwiftEditは、瞬時のテキストガイドによる画像編集(0.23秒で)を実現する、シンプルかつ非常に効率的な編集ツールである。SwiftEditの進歩は、2つの新規な貢献にある:反転を通じて1ステップで画像再構成を可能にする1ステップ反転フレームワークと、局所的な画像編集を実行するための我々が提案する注意力再スケーリングメカニズムを伴うマスクガイド編集技術である。SwiftEditの有効性と効率性を実証するために、広範な実験が提供されている。特に、SwiftEditは瞬時のテキストガイドによる画像編集を可能にし、これは以前の多段階手法よりも極めて高速である(少なくとも50×\times×倍高速)一方で、編集結果において競争力のあるパフォーマンスを維持している。本稿のプロジェクトページはhttps://swift-edit.github.io/にある。

1 Introduction

近年のテキストから画像への拡散モデル [25, 24, 23, 27] は、与えられたテキストプロンプトと意味的に整合性のある高品質な画像を生成する上で、顕著な成果を上げている。現実的な画像を生成するために、これらのモデルの多くは、ランダムノイズから現実的な画像へと拡散プロセスを逆転させる多段階サンプリング技術に依存している。この時間のかかるサンプリングプロセスを克服するために、一部の研究ではサンプリングステップ数を数段階(4-8ステップ)[27]、あるいは1ステップ [38, 37, 19, 5] にまで削減することに焦点を当てている。これらのアプローチは、結果を損なうことなく蒸留技術を通じて実現されている。これらの手法は画像生成を加速させるだけでなく、画像編集などの下流タスクにおいてより高速な推論を可能にする。

テキストガイド付き画像編集において、最近のアプローチ [18, 11, 29] では、ソース画像の初期ノイズを決定するための反転プロセスを使用し、(1)ソース画像の再構築と(2)他の詳細を保持しながらガイドテキストに沿ったコンテンツの修正を可能にしている。この反転されたノイズから始めて、注意操作やハイジャック [3, 33, 20] などの追加技術が各デノイジングステップで適用され、主要な背景要素を保持しながら徐々に編集を注入する。しかし、この典型的なアプローチは、反転と編集という2つの長い多段階プロセスを必要とするため、リソースを大量に消費する。この問題に対処するため、最近の研究 [6, 8, 31] では、SD-Turbo [28] のような少数ステップ拡散モデルを使用して、反転と編集に必要なサンプリングステップを削減し、テキストプロンプトを通じた分離編集のための追加ガイダンスを組み込んでいる。しかしながら、これらの手法は依然として、多段階アプローチと競合する性能を維持しながら、デバイス上のアプリケーションに十分な速度でテキストガイド付き画像編集を実現することに苦心している。

Refer to caption
図2: 我々のワンステップSwiftEditと少数ステップおよびマルチステップ拡散編集手法を、背景保持(PSNR)、編集セマンティクス(CLIPスコア)、実行時間の観点から比較している。我々の手法は、競争力のある結果を達成しつつ、超高速なテキストガイド編集を実現している。

本稿では、画像編集のためにワンステップテキスト生成画像モデルを基盤とする異なるアプローチを採用している。我々はSwiftEdit - 初のワンステップテキストガイド画像編集ツール - を導入する。これは、競争力のある編集品質を維持しつつ、従来のマルチステップ手法よりも少なくとも50×\times×倍高速な実行を実現する。特筆すべきは、SwiftEditにおける反転と編集の両方がワンステップで完了することである。

ワンステップ拡散モデルの反転は困難である。既存のDDIM Inversion [29]やNull-text Inversion [18]などの技術は、我々のワンステップリアルタイム編集の目標には適していない。これを達成するために、我々はエンコーダベースのGAN Inversion手法 [39, 34, 35]にインスピレーションを得た新しいワンステップ反転フレームワークを設計した。GAN反転とは異なり、ドメイン固有のネットワークや再学習を必要とせず、我々の反転フレームワークはあらゆる入力画像に一般化される。このために、我々は速度、多様性、品質で知られる最近のワンステップテキスト生成画像モデルであるSwiftBrushv2 [5]を活用し、これをワンステップ画像生成器および我々のワンステップ反転ネットワークのバックボーンとして使用する。その後、SwiftBrushv2から初期化された重みを用いて、合成データと実データの両方からの監督を組み合わせた2段階の学習戦略を通じて、あらゆるソース入力を処理できるよう学習を行う。

ワンステップ反転に続いて、我々は効率的なマスクベースの編集技術を導入する。我々の手法は、入力編集マスクを受け入れるか、または学習済み反転ネットワークとガイダンスプロンプトから直接推論することができる。このマスクは、我々の新しい注意力再スケーリング技術で使用され、編集強度のブレンドと制御を行いながら背景要素を保持し、高品質な編集結果を可能にする。

我々の知る限り、本稿は拡散ベースのワンステップ反転を用いて、ワンステップのテキストから画像生成モデルを使用し、テキストガイドによる画像編集を瞬時に実行する(0.23秒で)最初の研究である。他の多段階および少数段階の編集手法と比較して著しく高速でありながら、我々のアプローチは 2に示すように競争力のある編集結果を達成している。要約すると、我々の主な貢献は以下の通りである:

  • 我々は、二段階戦略で訓練された新規のワンステップ反転フレームワークを提案する。一度訓練されると、我々のフレームワークは追加の再訓練や微調整なしに、任意の入力画像を編集可能な潜在表現に単一ステップで反転できる。

  • 我々は、十分に訓練された反転フレームワークが、ソースおよびターゲットのテキストプロンプトによってガイドされた編集マスクを単一のバッチ化された順伝播内で生成できることを示す。

  • 我々は、マスクベースの編集のための新規の注意再スケーリング技術を提案し、重要な背景情報を保持しながら編集強度の柔軟な制御を可能にする。

2 Related Work

2.1 Text-to-image Diffusion Models

拡散ベースのテキストから画像へのモデル[23, 25, 24]は、通常、ガウスノイズからリアルな画像を生成するために計算コストの高い反復的なノイズ除去に依存している。最近の進歩[26, 17, 30, 15]により、多段階の教師モデルの知識を少数ステップの学習ネットワークに蒸留することでこの問題が軽減されている。注目すべき研究[14, 30, 15, 38, 37, 19, 5]は、この知識を1ステップの学習モデルにさえ蒸留できることを示している。具体的には、Instaflow[14]は整流フローを使用して1ステップのネットワークを訓練し、DMD[38]は知識転移のために分布マッチング目的関数を適用している。DMDv2[37]はコストの高い回帰損失を除去し、効率的な少数ステップのサンプリングを可能にしている。SwiftBrush[19]はテキストから3D生成の目的関数を持つ画像フリーの蒸留方法を利用し、SwiftBrushv2[5]は学習後のモデル統合とクランプされたCLIP損失を統合し、教師モデルを上回り、最先端の1ステップのテキストから画像への性能を達成している。これらの1ステップモデルは、テキストと画像の整合性に関する豊富な事前情報を提供し、非常に高速であるため、我々の1ステップのテキストベース画像編集アプローチに理想的である。

2.2 Text-based Image Editing

いくつかのアプローチは、テキストから画像への変換モデルにおける画像とテキストの関係の強力な事前知識を活用し、逆変換による編集アプローチを通じてテキストガイドによる多段階画像編集を実現している。まず、ソース画像を「情報量の多い」ノイズに逆変換する。DDIM Inversion [29]のような手法は、ノイズ予測の線形近似を使用する一方、Null-text Inversion [18]は、コストのかかるステップごとの最適化を通じて再構成品質を向上させる。Direct Inversion [11]は、ソースと目標の生成ブランチを分離することでこれらの問題を回避する。次に、[3, 33, 20, 21, 10]のような編集手法は、背景コンテンツを保持しながら編集を埋め込むために注意マップを操作する。しかし、その多段階拡散プロセスは実用的なアプリケーションには依然として遅すぎる。

この問題に対処するため、いくつかの研究 [31, 8, 6] は、高速生成モデル [27] を使用して少数ステップでの画像編集を可能にしている。ICD [31] は、一貫性蒸留フレームワークを用いて3-4ステップで正確な逆変換を達成し、その後テキストガイドによる編集を行う。ReNoise [8] は、各ステップで反復的な再ノイズ化技術を用いてサンプリングプロセスを改良する。TurboEdit [6] は、SDXL Turbo [28] のような高速モデルで期待されるスケジュールと逆変換されたノイズを整合させるために、シフトされたノイズスケジュールを使用する。これらの手法は推論時間を短縮するものの、高速アプリケーションに必要な即時のテキストベース画像編集には至っていない。我々の1ステップ逆変換と1ステップ局所編集アプローチは、時間効率を劇的に向上させると同時に、少数ステップ手法を編集性能で上回っている。

2.3 GAN Inversion

GAN逆変換[39, 22, 34, 13, 4, 16, 2]は、事前学習されたGANの潜在空間にソース画像をマッピングし、生成器が画像を再現することを可能にする。これは画像編集などのタスクに有用である。効果的な編集には、画像を再構成し、潜在コードの変化を通じて現実的な編集をサポートできる潜在空間が必要である。アプローチは3つのグループに分類される:エンコーダベース[22, 39, 40]、最適化ベース[13, 4, 16]、およびハイブリッド[2, 1, 39]である。エンコーダベースの手法は、高速な再構成のために画像から潜在コードへのマッピングを学習する。最適化ベースの手法は、コードを反復的に最適化することで改良する。ハイブリッド手法は両者を組み合わせ、エンコーダの出力を初期値として更なる最適化を行う。我々は、エンコーダベースの速度に触発され、ワンステップ逆変換ネットワークを開発したが、GANの代わりにワンステップのテキストから画像への拡散モデルを活用している。これにより、GANベースの手法が特定のドメインに制限されるのとは異なり、多様なドメインにわたるテキストベースの画像編集を実現することができる。

3 Preliminaries

Refer to caption
図3: 我々のワンステップ反転フレームワークのための提案された二段階トレーニング。第1段階では、SwiftBrushv2によって生成された合成データで反転ネットワークをウォームアップする。第2段階では、実際の画像に焦点を移し、我々の反転フレームワークが追加の微調整や再トレーニングなしに任意の入力画像を即座に反転できるようにする。

マルチステップ拡散モデル。 テキストから画像への拡散モデル ϵϕsubscriptbold-italic-ϵitalic-ϕ\mbox{\boldmath{$\epsilon$}}_{\phi}bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT は、ターゲットプロンプト埋め込み 𝐱^^𝐱\hat{{\bf x}}over^ start_ARG bold_x end_ARG(与えられたテキストプロンプト 𝐜ysubscript𝐜𝑦{\bf c}_{y}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT のCLIPテキストエンコーダーから抽出)が与えられた場合に、ガウスノイズ y𝑦yitalic_y から始まる T𝑇Titalic_T 回の反復的なデノイジングステップを通じて画像 𝐳T=ϵ𝒩(0,I)subscript𝐳𝑇bold-italic-ϵsimilar-to𝒩0𝐼{\bf z}_{T}=\mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,I)bold_z start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT = bold_italic_ϵ ∼ caligraphic_N ( 0 , italic_I ) を生成しようとする:

𝐳t1=𝐳tσtϵϕ(𝐳t,t,𝐜y)αt+δtϵt,ϵt𝒩(0,I),formulae-sequencesubscript𝐳𝑡1subscript𝐳𝑡subscript𝜎𝑡subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦subscript𝛼𝑡subscript𝛿𝑡subscriptbold-italic-ϵ𝑡similar-tosubscriptbold-italic-ϵ𝑡𝒩0𝐼{\bf z}_{t-1}=\frac{{\bf z}_{t}-\sigma_{t}\mbox{\boldmath{$\epsilon$}}_{\phi}(% {\bf z}_{t},t,{\bf c}_{y})}{\alpha_{t}}+\delta_{t}\mbox{\boldmath{$\epsilon$}}% _{t},\quad\mbox{\boldmath{$\epsilon$}}_{t}\sim\mathcal{N}(0,I),bold_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT = divide start_ARG bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG + italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , bold_italic_ϵ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ∼ caligraphic_N ( 0 , italic_I ) , (1)

ここで、t𝑡titalic_t はタイムステップであり、σt,αt,δtsubscript𝜎𝑡subscript𝛼𝑡subscript𝛿𝑡\sigma_{t},\alpha_{t},\delta_{t}italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT は3つの係数である。 最終的な潜在変数 𝐳=𝐳0𝐳subscript𝐳0{\bf z}={\bf z}_{0}bold_z = bold_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT は、その後VAEデコーダー 𝒟𝒟\mathcal{D}caligraphic_D に入力され、画像 𝐱^=𝒟(𝐳)^𝐱𝒟𝐳\hat{{\bf x}}=\mathcal{D}({\bf z})over^ start_ARG bold_x end_ARG = caligraphic_D ( bold_z ) を生成する。

ワンステップ拡散モデル。 従来の拡散モデルのサンプリングプロセスは複数のステップを必要とし、時間がかかる。この問題に対処するため、InstaFlow [14]、DMD [38]、DMD2 [37]、SwiftBrush [19]、SwiftBrushv2 [5] のようなワンステップテキストから画像への拡散モデルが開発され、サンプリングステップを単一のステップに削減している。具体的には、ワンステップテキストから画像への拡散モデル 𝐆𝐆{\bf G}bold_G は、テキストプロンプト埋め込み ϵ𝒩(0,1)similar-tobold-italic-ϵ𝒩01\mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,1)bold_italic_ϵ ∼ caligraphic_N ( 0 , 1 ) が与えられた場合に、ノイズ入力 𝐜ysubscript𝐜𝑦{\bf c}_{y}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT を、反復的なデノイジングステップなしに直接画像潜在変数 𝐳^^𝐳\hat{{\bf z}}over^ start_ARG bold_z end_ARG に変換することを目指す、つまり 𝐳^=𝐆(ϵ,𝐜y)^𝐳𝐆bold-italic-ϵsubscript𝐜𝑦\hat{{\bf z}}={\bf G}(\mbox{\boldmath{$\epsilon$}},{\bf c}_{y})over^ start_ARG bold_z end_ARG = bold_G ( bold_italic_ϵ , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) である。SwiftBrushv2(SBv2)は、高品質で多様な出力を迅速に生成することでワンステップ画像生成において際立っており、我々のアプローチの基礎を形成している。その前身をベースに、SBv2は重要な改良を統合している:出力品質を向上させるためのSD-Turbo初期化の使用、視覚-テキスト整合性を強化するためのクランプされたCLIP損失、モデル融合と後処理強化技術の使用など、これらすべてが優れたパフォーマンスと視覚的忠実性に貢献している。

スコア蒸留サンプリング(Score Distillation Sampling, SDS)は、2次元拡散モデルによって学習された強力な事前分布を利用して、目標データポイント𝐳𝐳{\bf z}bold_zを最適化する人気のある目的関数である。その勾配は以下のように計算される:

θSDS𝔼t,ϵ[w(t)(ϵϕ(𝐳t,t,𝐜y)ϵ)𝐳θ],subscript𝜃subscriptSDSsubscript𝔼𝑡bold-italic-ϵdelimited-[]𝑤𝑡subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦bold-italic-ϵ𝐳𝜃\nabla_{\theta}\mathcal{L}_{\text{SDS}}\triangleq\mathbb{E}_{t,\mbox{\boldmath% {$\epsilon$}}}\left[w(t)\left(\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},% t,{\bf c}_{y})-\mbox{\boldmath{$\epsilon$}}\right)\frac{\partial{\bf z}}{% \partial\theta}\right],∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT SDS end_POSTSUBSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , bold_italic_ϵ end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - bold_italic_ϵ ) divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG ] , (2)

ここで、𝐳=g(θ)𝐳𝑔𝜃{\bf z}=g(\theta)bold_z = italic_g ( italic_θ )θ𝜃\thetaitalic_θによってパラメータ化された微分可能な画像生成器g𝑔gitalic_gによってレンダリングされ、𝐳tsubscript𝐳𝑡{\bf z}_{t}bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT𝐳𝐳{\bf z}bold_zにランダムな量のノイズϵbold-italic-ϵ\epsilonbold_italic_ϵを加えた摂動版を表し、w(t)𝑤𝑡w(t)italic_w ( italic_t )はタイムステップt𝑡titalic_tに対応するスケーリング関数である。 SDSの損失の目的は、拡散モデルϵϕ(𝐳t,t,𝐜y)subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT )のスコア関数を使用して、𝐳𝐳{\bf z}bold_zをデータ多様体の高密度領域に移動させる更新方向を提供することである。注目すべきは、この勾配が拡散バックボーンのヤコビアン項を省略しており、拡散モデルのU-Net全体を通じての逆伝播における高コストな計算を排除していることである。

デカップルされたクロスアテンションによる画像プロンプト。 IP-Adapter [36]は、事前学習済みのテキストから画像生成モデルにシームレスに統合できる画像プロンプト条件 𝐱𝐱{\bf x}bold_x を導入している。これは、テキストと画像特徴の条件付け効果を分離するデカップルされたクロスアテンション機構によって実現される。具体的には、元のU-Netの各クロスアテンション層に追加のクロスアテンション層を加えることで行われる。CLIP画像エンコーダによって 𝐱𝐱{\bf x}bold_x から抽出された画像特徴 𝐜𝐱subscript𝐜𝐱{\bf c}_{\bf x}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT、CLIPテキストエンコーダを使用してテキストプロンプト y𝑦yitalic_y から得られるテキスト特徴 𝐜ysubscript𝐜𝑦{\bf c}_{y}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT、および前のU-Net層 l1𝑙1l-1italic_l - 1 からのクエリ特徴 𝐙lsubscript𝐙𝑙{\bf Z}_{l}bold_Z start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT が与えられた場合、デカップルされたクロスアテンションの出力 𝐡lsubscript𝐡𝑙{\bf h}_{l}bold_h start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT は以下のように計算される:

𝐡lsubscript𝐡𝑙\displaystyle{\bf h}_{l}bold_h start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT =Attn(Ql,Ky,Vy)+s𝐱Attn(Ql,K𝐱,V𝐱),absentAttnsubscript𝑄𝑙subscript𝐾𝑦subscript𝑉𝑦subscript𝑠𝐱Attnsubscript𝑄𝑙subscript𝐾𝐱subscript𝑉𝐱\displaystyle=\operatorname{Attn}(Q_{l},K_{y},V_{y})+s_{{\bf x}}\operatorname{% Attn}(Q_{l},K_{\bf x},V_{\bf x}),= roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) + italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) , (3)

ここで、Attn(.)\operatorname{Attn}(.)roman_Attn ( . ) はアテンション操作を表す。スケーリング係数 s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT は、𝐜𝐱subscript𝐜𝐱{\bf c}_{\bf x}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT が生成される出力に与える影響を制御するために使用される。Ql=WQ𝐙lsubscript𝑄𝑙superscript𝑊𝑄subscript𝐙𝑙Q_{l}=W^{Q}{\bf Z}_{l}italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_Q end_POSTSUPERSCRIPT bold_Z start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT は重み行列 WQsuperscript𝑊𝑄W^{Q}italic_W start_POSTSUPERSCRIPT italic_Q end_POSTSUPERSCRIPT によって射影されたクエリ行列である。テキスト特徴 𝐜ysubscript𝐜𝑦{\bf c}_{y}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT のキー行列とバリュー行列はそれぞれ Ky=WyK𝐜ysubscript𝐾𝑦subscriptsuperscript𝑊𝐾𝑦subscript𝐜𝑦K_{y}=W^{K}_{y}{\bf c}_{y}italic_K start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPTVy=WyV𝐜ysubscript𝑉𝑦subscriptsuperscript𝑊𝑉𝑦subscript𝐜𝑦V_{y}=W^{V}_{y}{\bf c}_{y}italic_V start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT であり、画像特徴 𝐜𝐱subscript𝐜𝐱{\bf c}_{\bf x}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT の射影されたキー行列とバリュー行列は K𝐱=W𝐱K𝐜𝐱subscript𝐾𝐱subscriptsuperscript𝑊𝐾𝐱subscript𝐜𝐱K_{\bf x}=W^{K}_{\bf x}{\bf c}_{\bf x}italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPTV𝐱=W𝐱V𝐜𝐱subscript𝑉𝐱subscriptsuperscript𝑊𝑉𝐱subscript𝐜𝐱V_{\bf x}=W^{V}_{\bf x}{\bf c}_{\bf x}italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT = italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT である。注目すべきは、2つの重み行列 W𝐱Ksubscriptsuperscript𝑊𝐾𝐱W^{K}_{\bf x}italic_W start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPTW𝐱Vsubscriptsuperscript𝑊𝑉𝐱W^{V}_{\bf x}italic_W start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT のみが学習可能であり、残りの重みは事前学習済み拡散モデルの元の挙動を保持するために凍結されたままであることである。

4 Proposed Method

我々の目標は、ワンステップのテキストから画像への生成モデルであるSBv2を用いて、即時的な画像編集を可能にすることである。セクション4.1では、SBv2を通過させることでソース画像を再構築する際に反転ノイズを予測する、ワンステップの反転ネットワークを開発する。このインバージョンネットワークに対して二段階の学習戦略を導入し、さらなる再学習なしに任意の入力画像の単一ステップでの再構築を可能にする。概要は3に示されている。セクション4.2で説明するように、推論時には自己誘導編集マスクを使用して編集領域を特定する。その後、我々のアテンション再スケーリング技術がこのマスクを利用して、背景を保持しながら分離された編集を実現し、編集の強度を制御する。

4.1 Inversion Network and Two-stage Training

合成画像(SBv2のようなモデルによって生成された)または実画像である可能性のある入力画像が与えられた場合、我々の最初の目的はSBv2モデルを使用してそれを反転および再構築することである。これを達成するために、我々は1ステップの反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT を開発し、画像潜在空間 𝐳𝐳{\bf z}bold_z をノイズ ϵ^=𝐅θ(𝐳,𝐜y)^bold-italic-ϵsubscript𝐅𝜃𝐳subscript𝐜𝑦\hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},{\bf c}_{y})over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) に変換し、それをSBv2に戻して再構築された潜在空間 𝐳^=𝐆(ϵ^,𝐜y)=𝐆(𝐅θ(𝐳,𝐜y),𝐜y).^𝐳𝐆^bold-italic-ϵsubscript𝐜𝑦𝐆subscript𝐅𝜃𝐳subscript𝐜𝑦subscript𝐜𝑦\hat{{\bf z}}={\bf G}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{y})={\bf G}(% {\bf F}_{\theta}({\bf z},{\bf c}_{y}),{\bf c}_{y}).over^ start_ARG bold_z end_ARG = bold_G ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) = bold_G ( bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) . を計算する。 合成画像の場合、𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT のトレーニングは straightforward であり、ペア (ϵ,𝐳)bold-italic-ϵ𝐳(\mbox{\boldmath{$\epsilon$}},{\bf z})( bold_italic_ϵ , bold_z ) を用いる。ここで、ϵbold-italic-ϵ\epsilonbold_italic_ϵ𝐳𝐳{\bf z}bold_z を生成するために使用されたノイズであり、ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARGϵbold-italic-ϵ\epsilonbold_italic_ϵ に直接回帰させ、反転されたノイズをSBv2の入力ノイズ分布と整合させることができる。しかし、実画像の場合、ドメインギャップが課題となる。元のノイズ ϵbold-italic-ϵ\epsilonbold_italic_ϵ が利用できないため、回帰目的を計算できず、潜在的に ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG が望ましい分布から逸脱する可能性がある。以下のセクションでは、我々の反転ネットワークと、これらの課題を効果的に克服するために設計された2段階トレーニング戦略について議論する。

我々の反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT は、1ステップ拡散モデル 𝐆𝐆{\bf G}bold_G のアーキテクチャに従い、𝐆𝐆{\bf G}bold_G の重みで初期化される。しかし、我々はこのアプローチが最適ではないことを発見した:𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT によって予測された反転ノイズ ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG は入力画像を完全に再構築しようとし、入力からの特定のパターンに過剰適合してしまう。このテーラリングにより、ノイズが入力特徴に過度に依存し、編集の柔軟性が制限される。

これを克服するために、我々は1ステップジェネレータ 𝐆𝐆{\bf G}bold_G 内に補助的な画像条件付きブランチ(IP-Adapter [36] に類似)を導入し、𝐆IPsuperscript𝐆IP{\bf G}^{\text{IP}}bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT と名付けた。このブランチは、入力画像 𝐱𝐱{\bf x}bold_x からエンコードされた画像特徴をテキストプロンプト y𝑦yitalic_y と共に統合し、再構築を支援し、𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT が入力画像から広範な視覚的詳細を埋め込む必要性を減少させる。このアプローチは ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG の負担を効果的に軽減し、再構築能力と編集能力の両方を向上させる。我々は反転ノイズ ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG と再構築された画像潜在空間 𝐳^^𝐳\hat{{\bf z}}over^ start_ARG bold_z end_ARG を以下のように計算する:

ϵ^=𝐅θ(𝐳,cy),𝐳^=𝐆IP(ϵ^,𝐜y,𝐜𝐱).formulae-sequence^bold-italic-ϵsubscript𝐅𝜃𝐳subscript𝑐𝑦^𝐳superscript𝐆IP^bold-italic-ϵsubscript𝐜𝑦subscript𝐜𝐱\hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},c_{y}),\quad\hat{{% \bf z}}={\bf G}^{\text{IP}}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{y},{% \bf c}_{{\bf x}}).over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , over^ start_ARG bold_z end_ARG = bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) . (4)
Refer to caption
図4: ステージ2の正則化損失なしおよびありで訓練された場合の、我々の反転ネットワークによって予測された反転ノイズの比較。

ステージ1:合成画像によるトレーニング。 上述のように、このステージは反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT をテキストから画像への拡散ネットワーク 𝐆𝐆{\bf G}bold_G(すなわちSBv2)からサンプリングされた合成トレーニングデータで事前訓練することを目的としている。 3では、ステージ1のトレーニングの流れをオレンジ色で視覚化している。トレーニングサンプルのペア (ϵ,𝐳)bold-italic-ϵ𝐳(\mbox{\boldmath{$\epsilon$}},{\bf z})( bold_italic_ϵ , bold_z ) は以下のように作成される:

ϵ𝒩(0,1),𝐳=𝐆(ϵ,𝐜y).formulae-sequencesimilar-tobold-italic-ϵ𝒩01𝐳𝐆bold-italic-ϵsubscript𝐜𝑦\mbox{\boldmath{$\epsilon$}}\sim\mathcal{N}(0,1),\quad{\bf z}={\bf G}(\mbox{% \boldmath{$\epsilon$}},{\bf c}_{y}).bold_italic_ϵ ∼ caligraphic_N ( 0 , 1 ) , bold_z = bold_G ( bold_italic_ϵ , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) . (5)

我々は再構築損失 recstage1subscriptsuperscriptstage1rec\mathcal{L}^{\text{stage1}}_{\text{rec}}caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT と回帰損失 regrstage1subscriptsuperscriptstage1regr\mathcal{L}^{\text{stage1}}_{\text{regr}}caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT を組み合わせて、反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT とIP-Adapterブランチの一部(画像条件のための線形マッピングとクロスアテンション層を含む)をトレーニングする。回帰損失 regrstage1subscriptsuperscriptstage1regr\mathcal{L}^{\text{stage1}}_{\text{regr}}caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT は、𝐅θ(.){\bf F}_{\theta}(.)bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( . )ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARGϵbold-italic-ϵ\epsilonbold_italic_ϵ に回帰させることで、SBv2の入力ノイズ分布に近い反転ノイズを生成するよう促す。これにより、反転ノイズが多変量正規分布に近い状態を保つことが保証され、先行研究 [18] で示されているように、効果的な編集可能性にとって重要である。一方、再構築損失 recstage1subscriptsuperscriptstage1rec\mathcal{L}^{\text{stage1}}_{\text{rec}}caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT は、再構築された潜在空間 𝐳^^𝐳\hat{{\bf z}}over^ start_ARG bold_z end_ARG と元のソース潜在空間 𝐳𝐳{\bf z}bold_z の整合性を強制し、入力画像の詳細を保持する。要約すると、トレーニング目的は以下の通りである:

recstage1=𝐳𝐳^22,regrstage1=ϵϵ^22,formulae-sequencesubscriptsuperscriptstage1recsubscriptsuperscriptnorm𝐳^𝐳22subscriptsuperscriptstage1regrsubscriptsuperscriptnormbold-italic-ϵ^bold-italic-ϵ22\displaystyle\mathcal{L}^{\text{stage1}}_{\text{rec}}=||{\bf z}-\hat{{\bf z}}|% |^{2}_{2},\quad\mathcal{L}^{\text{stage1}}_{\text{regr}}=||\mbox{\boldmath{$% \epsilon$}}-\hat{\mbox{\boldmath{$\epsilon$}}}||^{2}_{2},caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT = | | bold_z - over^ start_ARG bold_z end_ARG | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT = | | bold_italic_ϵ - over^ start_ARG bold_italic_ϵ end_ARG | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , (6)
stage1=recstage1+λstage1.regrstage1,formulae-sequencesuperscriptstage1superscriptsubscriptrecstage1superscript𝜆stage1superscriptsubscriptregrstage1\mathcal{L}^{\text{stage1}}=\mathcal{L}_{\text{rec}}^{\text{stage1}}+\lambda^{% \text{stage1}}.\mathcal{L}_{\text{regr}}^{\text{stage1}},caligraphic_L start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT = caligraphic_L start_POSTSUBSCRIPT rec end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT + italic_λ start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT . caligraphic_L start_POSTSUBSCRIPT regr end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT , (7)

ここで、トレーニング中は λstage1=1superscript𝜆stage11\lambda^{\text{stage1}}=1italic_λ start_POSTSUPERSCRIPT stage1 end_POSTSUPERSCRIPT = 1 と設定する。このステージの後、我々の反転フレームワークはSBv2モデルによって生成されたソース入力画像を再構築できるようになる。しかし、ドメインギャップのため実画像では機能しないため、ステージ2でのトレーニングを継続する動機となる。

ステージ2:実画像によるトレーニング。 我々はステージ1の再構築損失を、Deep Image Structure and Texture Similarity (DISTS)メトリック [7] を使用した知覚損失に置き換える。この知覚損失 perceptualstage2=DISTS(𝐱,𝐱^)subscriptsuperscriptstage2perceptualDISTS𝐱^𝐱\mathcal{L}^{\text{stage2}}_{\text{perceptual}}=\operatorname{DISTS}({\bf x},% \hat{{\bf x}})caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT = roman_DISTS ( bold_x , over^ start_ARG bold_x end_ARG ) は、𝐱^=𝒟(𝐳^)^𝐱𝒟^𝐳\hat{{\bf x}}=\mathcal{D}(\hat{{\bf z}})over^ start_ARG bold_x end_ARG = caligraphic_D ( over^ start_ARG bold_z end_ARG )(ここで 𝐳^=𝐆IP(ϵ^,𝐜y,𝐜𝐱)^𝐳superscript𝐆IP^bold-italic-ϵsubscript𝐜𝑦subscript𝐜𝐱\hat{{\bf z}}={\bf G}^{\text{IP}}(\hat{\mbox{\boldmath{$\epsilon$}}},{\bf c}_{% y},{\bf c}_{{\bf x}})over^ start_ARG bold_z end_ARG = bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ))と実際の入力画像 𝐱𝐱{\bf x}bold_x を比較する。DISTSは実画像で訓練されており、構造とテクスチャの知覚的詳細を捉えるため、ステージ1で使用されたピクセル単位の再構築損失よりも堅牢な視覚的類似性の尺度となる。

このステージでは、SBv2で 𝐳𝐳{\bf z}bold_z を再構築するために使用された元のノイズ ϵbold-italic-ϵ\epsilonbold_italic_ϵ が利用できないため、ステージ1の回帰目的を直接適用することはできない。ステージ2を perceptualstage2subscriptsuperscriptstage2perceptual\mathcal{L}^{\text{stage2}}_{\text{perceptual}}caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT のみでトレーニングすると、知覚損失が ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG にソース画像のパターンを捉えるよう促すため、反転ノイズ ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG が理想的なノイズ分布 𝒩(0,I)𝒩0𝐼\mathcal{N}(0,I)caligraphic_N ( 0 , italic_I ) から逸脱する可能性がある。これは再構築を支援するが、将来の編集の柔軟性を制限する( 4の2列目を参照)。これに対処するため、我々はScore Distillation Sampling (SDS)にインスパイアされた新しい正則化項 regustage2superscriptsubscriptregustage2\mathcal{L}_{\text{regu}}^{\text{stage2}}caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT を導入する( 2で定義)。SDSの勾配は、最適化された潜在空間をデータ多様体の密な領域に導く。実画像の潜在空間 𝐳=(𝐱)𝐳𝐱{\bf z}=\mathcal{E}({\bf x})bold_z = caligraphic_E ( bold_x ) がすでに高密度領域にあることを考えると、我々は最適化の焦点をノイズ項 ϵbold-italic-ϵ\epsilonbold_italic_ϵ に移し、我々の反転ノイズを 𝐳𝐳{\bf z}bold_z に加えられたノイズとして扱う。そして、損失勾配を以下のように計算する:

ϵ^=𝐅θ(𝐳,𝐜y),𝐳t=αt𝐳+σtϵ^,formulae-sequence^bold-italic-ϵsubscript𝐅𝜃𝐳subscript𝐜𝑦subscript𝐳𝑡subscript𝛼𝑡𝐳subscript𝜎𝑡^bold-italic-ϵ\displaystyle\hat{\mbox{\boldmath{$\epsilon$}}}={\bf F}_{\theta}({\bf z},{\bf c% }_{y}),\quad{\bf z}_{t}=\alpha_{t}{\bf z}+\sigma_{t}\hat{\mbox{\boldmath{$% \epsilon$}}},over^ start_ARG bold_italic_ϵ end_ARG = bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( bold_z , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) , bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT bold_z + italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT over^ start_ARG bold_italic_ϵ end_ARG ,
θregustage2𝔼t,ϵ^[w(t)(ϵ^ϵϕ(𝐳t,t,𝐜y))ϵ^θ].subscript𝜃superscriptsubscriptregustage2subscript𝔼𝑡^bold-italic-ϵdelimited-[]𝑤𝑡^bold-italic-ϵsubscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵ𝜃\displaystyle\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}}% \triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)\left(% \hat{\mbox{\boldmath{$\epsilon$}}}-\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}% _{t},t,{\bf c}_{y})\right)\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{% \partial\theta}\right].∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( over^ start_ARG bold_italic_ϵ end_ARG - bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) ) divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ] . (8)

我々の正則化勾配は ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG の代わりに 𝐳𝐳{\bf z}bold_z を最適化するため、 2 とは逆の符号を持つ(導出の詳細は付録参照)。ステージ1から初期化した後、ϵ^^bold-italic-ϵ\hat{\bm{\epsilon}}over^ start_ARG bold_italic_ϵ end_ARG はガウシアンノイズ 𝒩(0,1)𝒩01\mathcal{N}(0,1)caligraphic_N ( 0 , 1 ) に似ており、ノイズの加えられた潜在空間 𝐳tsubscript𝐳𝑡{\bf z}_{t}bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT はマルチステップティーチャーのトレーニングデータと互換性がある。これにより、ティーチャーは ϵϕ(𝐳t,t,𝐜y)subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) を正確に予測し、ϵϕ(𝐳t,t,𝐜y)ϵ^𝟎subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵ0\bm{\epsilon}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\bm{\epsilon}}\approx% \mathbf{0}bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ≈ bold_0 を達成できる。したがって、ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG は同じままである。時間が経つにつれて、再構築損失は 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT に再構築に適した反転ノイズ ϵ^^bold-italic-ϵ\hat{\bm{\epsilon}}over^ start_ARG bold_italic_ϵ end_ARG を生成するよう促し、𝒩(0,1)𝒩01\mathcal{N}(0,1)caligraphic_N ( 0 , 1 ) から逸脱し、馴染みのない 𝐳tsubscript𝐳𝑡\mathbf{z}_{t}bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT を作り出す。結果として生じる勾配は、元の分布からの過度の逸脱を防ぎ、 4の3列目に示すように、ステージ1からの安定性を強化する。 ステージ1と同様に、我々は知覚損失 perceptualstage2subscriptsuperscriptstage2perceptual\mathcal{L}^{\text{stage2}}_{\text{perceptual}}caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT perceptual end_POSTSUBSCRIPT と正則化損失 regustage2subscriptsuperscriptstage2regu\mathcal{L}^{\text{stage2}}_{\text{regu}}caligraphic_L start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT を組み合わせ、λstage2=1superscript𝜆stage21\lambda^{\text{stage2}}=1italic_λ start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT = 1 と設定する。トレーニング中は、反転ネットワークのみをトレーニングし、IP-Adapterブランチと分離されたクロスアテンション層は凍結したままにして、ステージ1で学習した画像事前特徴を保持する。ステージ2のトレーニングの流れは 3ティール色で視覚化されている。

Refer to caption
(a) 自己誘導編集マスク抽出。ソースと編集プロンプトが与えられると、我々の反転ネットワークは2つの異なるノイズマップを予測し、編集領域 M𝑀Mitalic_M を強調する。
Refer to caption
(b) グローバルスケールと我々の編集認識スケールの効果。グローバル画像条件スケール s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT を変化させた場合と我々のARaMとの編集結果の比較。

4.2 Attention Rescaling for Mask-aware Editing (ARaM)

推論時、ソース画像 𝐱sourcesuperscript𝐱source{\bf x}^{\text{source}}bold_x start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT、ソースプロンプト ysourcesuperscript𝑦sourcey^{\text{source}}italic_y start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT、および編集プロンプト yeditsuperscript𝑦edity^{\text{edit}}italic_y start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT が与えられた場合、我々の目標は、無関係な背景要素を変更せずに編集プロンプトに従って編集された画像 𝐱editsuperscript𝐱edit{\bf x}^{\text{edit}}bold_x start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT を生成することである。2段階の訓練後、我々はソース画像の潜在表現 𝐳source=(𝐱source)superscript𝐳sourcesuperscript𝐱source{\bf z}^{\text{source}}=\mathcal{E}({\bf x}^{\text{source}})bold_z start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT = caligraphic_E ( bold_x start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT ) を反転ノイズ ϵ^^bold-italic-ϵ\hat{\mbox{\boldmath{$\epsilon$}}}over^ start_ARG bold_italic_ϵ end_ARG に変換するための十分に訓練された反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT を得る。直感的には、1ステップ画像生成器 𝐆IP(.){\bf G}^{\text{IP}}(.)bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( . ) を使用して画像を再生成できるが、ガイドプロンプトとして編集プロンプト埋め込み 𝐜yeditsuperscriptsubscript𝐜𝑦edit{\bf c}_{y}^{\text{edit}}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT を使用する。編集された画像の潜在表現は 𝐳edit=𝐆IP(ϵ^,𝐜yedit,𝐜𝐱)superscript𝐳editsuperscript𝐆IP^bold-italic-ϵsuperscriptsubscript𝐜𝑦editsubscript𝐜𝐱{\bf z}^{\text{edit}}={\bf G}^{\text{IP}}(\hat{\mbox{\boldmath{$\epsilon$}}},{% \bf c}_{y}^{\text{edit}},{\bf c}_{{\bf x}})bold_z start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT = bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT ( over^ start_ARG bold_italic_ϵ end_ARG , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT , bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) を介して計算される。 セクション 4.1で議論したように、ソース画像の条件 𝐜𝐱subscript𝐜𝐱{\bf c}_{\bf x}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT は再構成に不可欠であり、その影響は 3に示すように s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT によって調整される。これを説明するために、 5(b)オレンジ色のブロックで編集された画像 𝐱edit=𝒟(𝐳edit)superscript𝐱edit𝒟superscript𝐳edit{\bf x}^{\text{edit}}=\mathcal{D}({\bf z}^{\text{edit}})bold_x start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT = caligraphic_D ( bold_z start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT ) を生成する際に s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT を変化させる。示されているように、s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT の値が高いほどソース画像への忠実性が強制され、𝐜xsubscript𝐜𝑥{\bf c}_{x}bold_c start_POSTSUBSCRIPT italic_x end_POSTSUBSCRIPT による厳密な制御のため編集の柔軟性が制限される。逆に、s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT が低いとより柔軟な編集が可能になるが、再構成の品質が低下する。この観察に基づき、我々は編集マスク M𝑀Mitalic_M によって導かれる 𝐆IPsuperscript𝐆IP{\bf G}^{\text{IP}}bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT におけるマスク対応編集のための注意力再スケーリング(ARaM)を導入する。主要なアイデアは、非編集領域での 𝐜𝐱subscript𝐜𝐱{\bf c}_{{\bf x}}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT の影響を増幅してより良い保存を実現し、編集領域内でその効果を減少させてより大きな編集の柔軟性を提供することである。これを実装するために、我々は 𝐆IPsuperscript𝐆IP{\bf G}^{\text{IP}}bold_G start_POSTSUPERSCRIPT IP end_POSTSUPERSCRIPT 内の 3 の計算を、グローバルスケール s𝐱subscript𝑠𝐱s_{{\bf x}}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT を削除し、領域固有のスケールを導入することで以下のように再定式化する:

𝐡l=sy.M.Attn(Ql,Ky,Vy)+sedit.M.Attn(Ql,K𝐱,V𝐱)+snon-edit.(1M).Attn(Ql,K𝐱,V𝐱).formulae-sequencesubscript𝐡𝑙subscript𝑠𝑦𝑀Attnsubscript𝑄𝑙subscript𝐾𝑦subscript𝑉𝑦subscript𝑠edit𝑀Attnsubscript𝑄𝑙subscript𝐾𝐱subscript𝑉𝐱subscript𝑠non-edit1𝑀Attnsubscript𝑄𝑙subscript𝐾𝐱subscript𝑉𝐱\begin{split}{\bf h}_{l}=&\>s_{y}.M.\operatorname{Attn}(Q_{l},K_{y},V_{y})\\ &+s_{\text{edit}}.M.\operatorname{Attn}(Q_{l},K_{\bf x},V_{\bf x})\\ &+s_{\text{non-edit}}.(1-M).\operatorname{Attn}(Q_{l},K_{\bf x},V_{\bf x}).% \end{split}start_ROW start_CELL bold_h start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT = end_CELL start_CELL italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT . italic_M . roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL + italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT . italic_M . roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL + italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT . ( 1 - italic_M ) . roman_Attn ( italic_Q start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT , italic_K start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT , italic_V start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT ) . end_CELL end_ROW (9)

この分離されたクロスアテンションは、 3とは3つのスケーリング係数:sysubscript𝑠𝑦s_{y}italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPTseditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT、および snon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT が異なる画像領域に適用される点で若干異なる。2つのスケーリング係数 seditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPTsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT は、編集領域と非編集領域における画像条件 𝐜𝐱subscript𝐜𝐱{\bf c}_{{\bf x}}bold_c start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT の影響を個別に制御するために使用される。 5(b)紫色のブロックに示されているように、これにより同じ s𝐱subscript𝑠𝐱s_{\bf x}italic_s start_POSTSUBSCRIPT bold_x end_POSTSUBSCRIPT を使用する場合と比較して、プロンプト編集のセマンティクスに従いつつ良好な背景保存を達成する編集画像が効果的に生成される。一方、我々は追加の sysubscript𝑠𝑦s_{y}italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT を導入して、編集領域 M𝑀Mitalic_M 内の編集プロンプトアライメント効果を弱める/強化し、 5(c)に示すように編集強度を制御できるようにする。

Type Method Background Preservation CLIP Semantics Runtime\downarrow
PSNR\uparrow MSE×104absentsuperscript104{}_{\times 10^{4}}start_FLOATSUBSCRIPT × 10 start_POSTSUPERSCRIPT 4 end_POSTSUPERSCRIPT end_FLOATSUBSCRIPT\downarrow Whole \uparrow Edited\uparrow (seconds)
Multi-step (50 steps) DDIM + P2P 17.87 219.88 25.01 22.44 25.98
NT-Inv + P2P 27.03 35.86 24.75 21.86 134.06
DDIM + MasaCtrl 22.17 86.97 23.96 21.16 23.21
Direct Inversion + MasaCtrl 22.64 81.09 24.38 21.35 29.68
DDIM + P2P-Zero 20.44 144.12 22.80 20.54 35.57
Direct Inversion + P2P-Zero 21.53 127.32 23.31 21.05 35.34
DDIM + PnP 22.28 83.64 25.41 22.55 12.62
Direct Inversion + PnP 22.46 80.45 25.41 22.62 12.79
Few-steps (4 steps) ReNoise (SDXL Turbo) 20.28 54.08 24.29 21.07 5.11
TurboEdit 22.43 9.48 25.49 21.82 1.32
ICD (SD 1.5) 26.93 3.32 22.42 19.07 1.62
One-step SwiftEdit (Ours) 23.33 6.60 25.16 21.25 0.23
SwiftEdit (Ours with GT masks) 23.31 6.18 25.56 21.91 0.23
表1: SwiftEditと他の編集手法との定量的比較。PieBench [11]から採用された指標を使用。

.

上記で議論した編集マスク M𝑀Mitalic_M は、ユーザーによって提供されるか、我々の反転ネットワーク 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT から自動的に生成される。自己ガイド編集マスクを抽出するために、十分に訓練された 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT が、異なるテキストプロンプトで条件付けられた場合に反転ノイズマップの空間的意味の違いを識別できることを観察する。 5(a)に示すように、我々はソース画像の潜在表現 𝐳sourcesuperscript𝐳source{\bf z}^{\text{source}}bold_z start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT を2つの異なるテキストプロンプト(ソース 𝐜ysourcesuperscriptsubscript𝐜𝑦source{\bf c}_{y}^{\text{source}}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT と編集 𝐜yeditsuperscriptsubscript𝐜𝑦edit{\bf c}_{y}^{\text{edit}}bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT)で 𝐅θsubscript𝐅𝜃{\bf F}_{\theta}bold_F start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT に入力する。差分ノイズマップ ϵ^sourceϵ^editsuperscript^bold-italic-ϵsourcesuperscript^bold-italic-ϵedit\hat{\mbox{\boldmath{$\epsilon$}}}^{\text{source}}-\hat{\mbox{\boldmath{$% \epsilon$}}}^{\text{edit}}over^ start_ARG bold_italic_ϵ end_ARG start_POSTSUPERSCRIPT source end_POSTSUPERSCRIPT - over^ start_ARG bold_italic_ϵ end_ARG start_POSTSUPERSCRIPT edit end_POSTSUPERSCRIPT が計算され、正規化されて編集マスク M𝑀Mitalic_M が得られ、これが効果的に編集領域を強調する。

5 Experiments

5.1 Experimental Setup

データセットと評価指標。 我々は、PieBench [11]を用いて編集性能を評価する。これは10種類の多様な編集タイプにわたる700サンプルを含む人気のベンチマークである。各サンプルには、ソースプロンプト、編集プロンプト、指示プロンプト、ソース画像、および手動で注釈付けされた編集マスクが含まれる。PieBenchの指標を使用し、我々は背景保存と編集セマンティクスの両方を評価し、高品質な編集のためにそれらのバランスを取ることを目指す。背景保存は、ソース画像と編集された画像の未編集領域におけるPSNRとMSEスコアで評価される。編集の整合性は、CLIP-WholeとCLIP-Editedスコアを用いて評価され、それぞれ全画像と編集領域とプロンプトの整合性を測定する。

実装の詳細。 我々の反転ネットワークは、SBv2のアーキテクチャに基づいており、ステージ1のトレーニングではSBv2の重みで初期化される。ステージ2では、ステージ1の事前学習済み重みから継続してトレーニングを行う。画像エンコーディングには、IP-Adapter [36]のデザインを採用し、事前学習済みのCLIP画像エンコーダーに続いて、画像埋め込みを拡散モデルのテキスト特徴次元に一致する長さN=4𝑁4N=4italic_N = 4の特徴列にマッピングする小さな投影ネットワークを使用する。両ステージとも、Adam最適化器 [12]を使用し、重み減衰は1e-4、学習率は1e-5、そして各イテレーションで指数移動平均(EMA)を適用する。ステージ1では、バッチサイズ4で100kイテレーションにわたり、SBv2で生成された合成サンプルとJourneyDBデータセット [32]からの40kのキャプションをペアにしてトレーニングを行う。ステージ2では、バッチサイズ1で、CommonCanvasデータセット [9]からの5k実画像とそのプロンプト説明を使用して180kイテレーションにわたりトレーニングを行う。すべての実験は、単一のNVIDIA A100 40GB GPUで実施される。

Refer to caption
図6: 編集結果の比較。最初の列はソース画像を示し、ソースプロンプトと編集プロンプトは各行の下に記載されている。

比較手法。 我々は、代表的な多段階および最近導入された少数段階の画像編集手法とSwiftEditの広範な比較を行う。多段階手法については、Prompt-to-Prompt (P2P) [10]、MasaCtrl [3]、Pix2Pix-Zero (P2P-Zero) [21]、およびPlug-and-Play [33]を選択し、DDIM [29]、Null-text Inversion (NT-Inv) [18]、Direct Inversion [11]などの対応する反転手法と組み合わせる。少数段階手法については、Renoise [8]、TurboEdit [6]、およびICD [31]を選択する。

5.2 Comparison with Prior Methods

Refer to caption
図7: ユーザー調査
Method PSNR\uparrow LPIPS×103absentsuperscript103{}_{\times 10^{3}}start_FLOATSUBSCRIPT × 10 start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT end_FLOATSUBSCRIPT\downarrow MSE×104absentsuperscript104{}_{\times 10^{4}}start_FLOATSUBSCRIPT × 10 start_POSTSUPERSCRIPT 4 end_POSTSUPERSCRIPT end_FLOATSUBSCRIPT\downarrow SSIM×102absentsuperscript102{}_{\times 10^{2}}start_FLOATSUBSCRIPT × 10 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_FLOATSUBSCRIPT\uparrow
w/o stage 1 22.26 111.57 7.03 72.39
w/o stage 2 17.95 305.23 17.46 55.97
w/o IP-Adapter 18.57 165.78 16.11 63.87
Full Setting (Ours) 24.35 89.69 4.59 76.34
表2: 反転フレームワークの設計が実画像の再構成に与える影響。
Setting regrstage1superscriptsubscript𝑟𝑒𝑔𝑟𝑠𝑡𝑎𝑔𝑒1\mathcal{L}_{regr}^{stage1}caligraphic_L start_POSTSUBSCRIPT italic_r italic_e italic_g italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_s italic_t italic_a italic_g italic_e 1 end_POSTSUPERSCRIPT regustage2superscriptsubscript𝑟𝑒𝑔𝑢𝑠𝑡𝑎𝑔𝑒2\mathcal{L}_{regu}^{stage2}caligraphic_L start_POSTSUBSCRIPT italic_r italic_e italic_g italic_u end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_s italic_t italic_a italic_g italic_e 2 end_POSTSUPERSCRIPT CLIP Semantics
Whole (\uparrow) Edited(\uparrow)
Setting 1 22.91 19.07
Setting 2 22.98 19.01
Setting 3 24.19 20.55
Setting 4 (Full) 25.16 21.25
表3: 損失が編集セマンティクススコアに与える影響。

定量的結果。 1において、我々はSwiftEditと様々な多段階および少段階の画像編集手法を比較した定量的結果を示している。全体として、SwiftEditは我々の1段階の反転および編集プロセスにより、競争力のある編集性能を維持しつつ、優れた時間効率を示している。多段階手法と比較して、SwiftEditは背景保存スコアで強力な結果を示し、ほとんどのアプローチを上回っている。NT-Inv + P2Pよりもわずかに低いPSNRスコアを達成しているが、より良いMSEスコアを持ち、約500倍高速である。CLIPセマンティクスに関しては、CLIP-Whole(2番目に良い)とCLIP-Editedで競争力のある結果を達成している。少段階手法と比較すると、SwiftEditは背景保存で2番目に良い結果(ICDが最良)を示し、CLIPセマンティクスでも2番目に良い結果(TurboEditが先行)を示しつつ、これらの手法よりも少なくとも5倍高速という速度の優位性を維持している。SwiftEditはユーザー定義の編集マスクを許容するため、PieBench [11]からの正解編集マスクを使用した結果も報告している。 1の最後の行に示されているように、正解マスクを使用した結果はわずかな改善を示しており、我々の自己誘導編集マスクがほぼ正解と同程度の精度であることを示している。

定性的結果。 6において、我々はSwiftEditと他の手法によって生成された編集結果の視覚的比較を示している。図示されているように、SwiftEditは与えられた編集プロンプトに忠実に従いつつ、重要な背景の詳細を保持することに成功している。このバランスは、SwiftEditが高品質な編集を生成しつつ、大幅に高速であるという点で、他の多段階手法に対するSwiftEditの強みを示している。 少段階手法と比較すると、SwiftEditは編集品質において明確な優位性を示している。ICD [31]は背景保存で高いスコアを示しているが( 1に示されている通り)、しばしばプロンプトに合致する編集の生成に失敗している。TurboEdit [6]は、SwiftEditよりも高いCLIPスコアを達成しているが、 6の1行目、2行目、5行目に見られるように、重要な背景要素を損なう低品質な結果を生成している。これはさらに、SwiftEditがプロンプトとの整合性と背景保存を伴う高品質な編集を生成する能力を強調している。

ユーザー調査。 我々は140人の参加者を対象に、異なる編集結果に対する選好を評価するユーザー調査を実施した。PieBench [11]からランダムに選んだ20の編集プロンプトを使用し、参加者は3つの手法(Null-text Inversion [18]、TurboEdit [6]、我々のSwiftEdit)によって編集された画像を比較した。参加者は背景保存と編集セマンティクスに基づいて最も適切な編集を選択した。 7に示されているように、SwiftEditが好まれる選択肢となり、編集セマンティクスで47.8%、背景保存で40%が支持を集め、速度においても他の手法を上回った。

6 Ablation Study

反転フレームワーク設計の分析。 我々は、反転フレームワークと2段階トレーニングが画像再構成に与える影響を評価するためにアブレーション実験を行った。我々の2段階戦略は、1ステップ反転フレームワークの有効性にとって不可欠である。 2に示すように、いずれかの段階を省略すると再構成品質が低下する。デカップルされたクロスアテンションを持つIP-Adapterは重要であり、これを削除すると行3に見られるように再構成が不十分になる。

編集品質に対する損失の影響。 [18]が指摘しているように、編集可能なノイズは柔軟性を確保するために正規分布に従う必要がある。我々は、損失関数がノイズの編集可能性に与える影響を評価するためにアブレーション実験を行った。 3に示すように、いずれかの損失成分を省略すると、CLIP Semanticsで測定された編集可能性が低下する一方で、両方を使用すると最高スコアが得られる。これは、編集可能性を高めるノイズ分布を維持する上で各損失が重要であることを強調している。

7 Conclusion and Discussion

結論。本稿では、0.23秒で瞬時に編集可能な、超高速テキストガイド画像編集ツールSwiftEditを紹介する。広範な実験により、SwiftEditが高品質な結果を提供しつつ、そのワンステップの反転と編集プロセスによって、速度面で従来の手法を大幅に上回ることが実証された。我々は、SwiftEditがインタラクティブな画像編集を促進することを期待している。

考察。SwiftEditは瞬時レベルの画像編集を実現しているが、課題は残っている。その性能はまだSBv2生成器の品質に依存しており、したがって、訓練データのバイアスが我々の反転ネットワークに転移する可能性がある。今後の研究では、瞬時レベルからリアルタイム編集能力への移行によって手法を改善したいと考えている。この強化は現在の限界に対処し、様々な分野に大きな影響を与えるだろう。

\thetitle

補足資料

この補足資料では、まずセクション8で概説したステージ2で使用される正則化損失の詳細な導出を提供する。次に、セクション9で、様々なワンステップ拡散モデルに関する追加のアブレーション研究と、seditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPTsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT、およびsysubscript𝑠𝑦s_{y}italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPTの異なるスケールに関する感度分析を提示する。最後に、セクション10でさらなる定性的結果を含め、セクション11で社会的影響について議論する。

8 Derivation of the Regularization Loss in Stage 2

我々は、本稿の式(8)で定義された提案する正則化損失の勾配の詳細な導出を提供する。正則化損失は以下のように定式化される:

regustage2=𝔼t,ϵ^[w(t)ϵϕ(𝐳t,t,𝐜y)ϵ^22],superscriptsubscriptregustage2subscript𝔼𝑡^bold-italic-ϵdelimited-[]𝑤𝑡subscriptsuperscriptnormsubscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵ22\mathcal{L}_{\text{regu}}^{\text{stage2}}=\mathbb{E}_{t,\hat{\mbox{\boldmath{$% \epsilon$}}}}\left[w(t)\|\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{% \bf c}_{y})-\hat{\mbox{\boldmath{$\epsilon$}}}\|^{2}_{2}\right]\,,caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT = blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ∥ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ] , (10)

ここで、ϵϕ(.)\mbox{\boldmath{$\epsilon$}}_{\phi}(.)bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( . )は教師デノイジングUNetであり、我々の実装ではSD 2.1を使用している。

我々の反転ネットワークのパラメータθ𝜃\thetaitalic_θに関する損失の勾配は以下のように計算される:

θregustage2𝔼t,ϵ^[w(t)(ϵϕ(𝐳t,t,𝐜y)ϵ^)(ϵϕ(𝐳t,t,𝐜y)θϵ^θ)],subscript𝜃superscriptsubscriptregustage2subscript𝔼𝑡^bold-italic-ϵdelimited-[]𝑤𝑡subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵsubscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦𝜃^bold-italic-ϵ𝜃\begin{split}\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}}% \triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)(\mbox{% \boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\mbox{\boldmath{% $\epsilon$}}}\right)\\ (\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})}% {\partial\theta}-\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{\partial% \theta})],\end{split}start_ROW start_CELL ∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT ≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ) end_CELL end_ROW start_ROW start_CELL ( divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARG - divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ) ] , end_CELL end_ROW (11)

ここで、すべての定数をw(t)𝑤𝑡w(t)italic_w ( italic_t )に吸収している。項ϵϕ(𝐳t,t,𝐜y)θsubscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦𝜃\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})}{% \partial\theta}divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARGを展開すると、以下のようになる:

ϵϕ(𝐳t,t,cy)θ=ϵϕ(𝐳t,t,cy)𝐳t𝐳t𝐳𝐳θ.subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝑐𝑦𝜃subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝑐𝑦subscript𝐳𝑡subscript𝐳𝑡𝐳𝐳𝜃\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,c_{y})}{% \partial\theta}=\frac{\partial\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},% t,c_{y})}{\partial{\bf z}_{t}}\frac{\partial{\bf z}_{t}}{\partial{\bf z}}\frac% {\partial{\bf z}}{\partial\theta}.divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ italic_θ end_ARG = divide start_ARG ∂ bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , italic_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) end_ARG start_ARG ∂ bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG divide start_ARG ∂ bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG ∂ bold_z end_ARG divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG . (12)

𝐳𝐳{\bf z}bold_z(実画像から抽出)とθ𝜃\thetaitalic_θは独立しているため、𝐳θ=0𝐳𝜃0\frac{\partial{\bf z}}{\partial\theta}=0divide start_ARG ∂ bold_z end_ARG start_ARG ∂ italic_θ end_ARG = 0となる。したがって、 11を以下のように変形できる:

θregustage2subscript𝜃superscriptsubscriptregustage2\displaystyle\nabla_{\theta}\mathcal{L}_{\text{regu}}^{\text{stage2}}∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT regu end_POSTSUBSCRIPT start_POSTSUPERSCRIPT stage2 end_POSTSUPERSCRIPT 𝔼t,ϵ^[w(t)(ϵϕ(𝐳t,t,𝐜y)ϵ^)(ϵ^θ)]absentsubscript𝔼𝑡^bold-italic-ϵdelimited-[]𝑤𝑡subscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵ^bold-italic-ϵ𝜃\displaystyle\triangleq\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[% w(t)(\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t},t,{\bf c}_{y})-\hat{\mbox% {\boldmath{$\epsilon$}}})(-\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{% \partial\theta})\right]≜ blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) - over^ start_ARG bold_italic_ϵ end_ARG ) ( - divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ) ] (13)
=𝔼t,ϵ^[w(t)(ϵ^ϵϕ(𝐳t,t,𝐜y))ϵ^θ],absentsubscript𝔼𝑡^bold-italic-ϵdelimited-[]𝑤𝑡^bold-italic-ϵsubscriptbold-italic-ϵitalic-ϕsubscript𝐳𝑡𝑡subscript𝐜𝑦^bold-italic-ϵ𝜃\displaystyle=\mathbb{E}_{t,\hat{\mbox{\boldmath{$\epsilon$}}}}\left[w(t)(\hat% {\mbox{\boldmath{$\epsilon$}}}-\mbox{\boldmath{$\epsilon$}}_{\phi}({\bf z}_{t}% ,t,{\bf c}_{y}))\frac{\partial\hat{\mbox{\boldmath{$\epsilon$}}}}{\partial% \theta}\right],= blackboard_E start_POSTSUBSCRIPT italic_t , over^ start_ARG bold_italic_ϵ end_ARG end_POSTSUBSCRIPT [ italic_w ( italic_t ) ( over^ start_ARG bold_italic_ϵ end_ARG - bold_italic_ϵ start_POSTSUBSCRIPT italic_ϕ end_POSTSUBSCRIPT ( bold_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t , bold_c start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT ) ) divide start_ARG ∂ over^ start_ARG bold_italic_ϵ end_ARG end_ARG start_ARG ∂ italic_θ end_ARG ] , (14)

これは、本稿で議論したように、𝐳𝐳{\bf z}bold_z損失に関するSDS勾配と反対の符号を持つ。

9 Additional Ablation Studies

他のワンステップテキスト画像生成モデルとの組み合わせ。 本稿で述べたように、我々の反転フレームワークはSBv2に限定されず、他のワンステップテキスト画像生成器とシームレスに統合できる。これを実証するために、我々はSBv2を代替モデルに置き換える実験を行った。代替モデルにはDMD2 [37]、InstaFlow [14]、およびSBv1 [19]が含まれる。これらの実験では、各生成器の構造と事前学習済みの重み 𝐆𝐆{\bf G}bold_G を使用して、ステージ1の我々の反転ネットワークを初期化した。具体的には、DMD2はSD 1.5のバックボーンを使用して実装され、InstaFlowはSD 1.5を使用している。両ステージのすべての学習実験は、本稿の表1に示した実験と同様に、同じデータセットで実施された。

8は、我々の反転フレームワークを異なるワンステップ画像生成器と統合して得られた編集結果を示している。示されているように、これらのワンステップモデルは我々のフレームワークとうまく統合され、効果的な編集を可能にしている。さらに、定量的結果は 4に示されている。結果は、我々の反転フレームワークとSBv2(SwiftEdit)を組み合わせたものが、CLIP-WholeとCLIP-Editedスコアの観点から最高の編集性能を達成し、一方でDMD2は背景保持において優れた性能を示していることを示している。

モデル PSNR\uparrow CLIP-Whole\uparrow CLIP-Edited\uparrow 我々の手法 + InstaFlow 24.88 24.03 20.47 我々の手法 + DMD2 26.08 23.35 19.84 我々の手法 + SBv1 25.09 23.64 19.96 我々の手法 + SBv2 (SwiftEdit) 23.33 25.16 21.25

表4: 我々の手法と他のワンステップテキスト画像生成モデルを組み合わせたアブレーション研究。\daggerはこれらのモデルがSD 1.5に基づいていることを意味し、\ddaggerはこれらのモデルがSD 2.1に基づいていることを意味する。
Refer to caption
図8: 我々の反転フレームワークを他のワンステップテキスト画像生成モデルと組み合わせた場合の定性的結果。

スケールの変動。 本稿の主要部分の式(9)で使用されるスケールの変動の効果をより良く理解するために、PieBenchベンチマークからランダムに選んだ100のテストサンプルに対するSwiftEditの性能を評価する2つの包括的なプロットを提示する。特に、これらのプロットはsedit{0,0.2,0.4,0.6,0.8,1}subscript𝑠edit00.20.40.60.81s_{\text{edit}}\in\{0,0.2,0.4,0.6,0.8,1\}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT ∈ { 0 , 0.2 , 0.4 , 0.6 , 0.8 , 1 }の変動( 9(a)参照)またはsy{0.5,1,1.5,2,2.5,3,3.5,4}subscript𝑠y0.511.522.533.54s_{\text{y}}\in\{0.5,1,1.5,2,2.5,3,3.5,4\}italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT ∈ { 0.5 , 1 , 1.5 , 2 , 2.5 , 3 , 3.5 , 4 }の変動( 9(b)参照)を異なるレベルのsnon-edit{0.2,0.4,0.6,0.8,1}subscript𝑠non-edit0.20.40.60.81s_{\text{non-edit}}\in\{0.2,0.4,0.6,0.8,1\}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT ∈ { 0.2 , 0.4 , 0.6 , 0.8 , 1 }で示している。 9(a)に示されているように、異なるレベルのsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPTにおいて、より低いseditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPTは一般的に編集のセマンティクス(CLIP-Editedスコア)を改善するが、背景の保存(PSNR)を若干損なうことが明らかである。逆に、より高いsysubscript𝑠ys_{\text{y}}italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPTはプロンプトと画像の整合性(CLIP-Editedスコア、 9(b))を向上させることができるが、過度の値(sy>2subscript𝑠y2s_{\text{y}}>2italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT > 2)はプロンプトとの整合性の結果を損なう可能性がある。我々のすべての実験において、我々はスケールパラメータのデフォルト設定としてsedit=0subscript𝑠edit0s_{\text{edit}}=0italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT = 0snon-edit=1subscript𝑠non-edit1s_{\text{non-edit}}=1italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPT = 1、およびsy=2subscript𝑠y2s_{\text{y}}=2italic_s start_POSTSUBSCRIPT y end_POSTSUBSCRIPT = 2を使用している。

Refer to caption
(a) デフォルトのsy=2subscript𝑠𝑦2s_{y}=2italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPT = 2で、異なるレベルのsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPTにおけるseditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPTスケールの変動。
Refer to caption
(b) デフォルトのsedit=0subscript𝑠edit0s_{\text{edit}}=0italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT = 0で、異なるレベルのsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPTにおけるsysubscript𝑠𝑦s_{y}italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPTスケールの変動。
図9: 異なるレベルのsnon-editsubscript𝑠non-edits_{\text{non-edit}}italic_s start_POSTSUBSCRIPT non-edit end_POSTSUBSCRIPTにおけるseditsubscript𝑠edits_{\text{edit}}italic_s start_POSTSUBSCRIPT edit end_POSTSUBSCRIPTsysubscript𝑠𝑦s_{y}italic_s start_POSTSUBSCRIPT italic_y end_POSTSUBSCRIPTの変動が背景の保存と編集のセマンティクスに与える影響。
Refer to caption
図10: 我々が抽出したマスクの可視化と、各画像行の下に記述されたガイドテキストを使用して編集した結果。
Refer to caption
図11: 柔軟なプロンプトを用いた画像編集。 SwiftEditは、柔軟なソースと編集プロンプト入力(各画像の下に記載)で満足のいく再構成および編集結果を達成している。
Refer to caption
図12: 簡単なプロンプトによる顔のアイデンティティと表情の編集。ポートレート入力画像が与えられた場合、SwiftEditは単純なテキストによって誘導される様々な顔のアイデンティティと表情編集シナリオをわずか0.23秒で実行することができる。

10 More Qualitative Results

自己誘導編集マスク。 10では、我々の反転ネットワークから直接抽出された自己誘導編集マスクとともに、さらなる編集例を示している。

柔軟なプロンプト。 11に示すように、SwiftEditは最小限のソースプロンプト入力でも高い忠実度で画像を再構成する。単一のキーワード(最後の3行)や、プロンプトなし(最初の2行)でも効果的に動作する。特筆すべきは、 11の最後の行に示されるように、編集プロンプトでキーワードを組み合わせるだけで、SwiftEditが複雑な編集を容易に実行することである。これらの結果は、SwiftEditが高速で使いやすい編集ツールとしての能力を示している。

顔の同一性と表情の編集。 12では、単純なソースプロンプト「man」と人物画像が与えられた場合、SwiftEditは表情語(各行に示される)と 同一性語(各列に示される)を組み合わせた簡単な編集プロンプトによって、顔の同一性と表情の編集を達成できる。

Refer to caption
図13: PieBenchベンチマークにおける比較結果
Refer to caption
図14: PieBenchベンチマークにおける比較結果
Refer to caption
図15: PieBenchベンチマークにおける比較結果

PieBenchにおける追加結果。 1314および15では、PieBenchベンチマークにおける他の手法との広範な編集結果の比較を提供している。

11 Societal Impacts

AIを活用した視覚生成ツールであるSwiftEditは、シンプルなプロンプト入力を通じて、高速で高品質かつカスタマイズ可能な編集機能を提供し、様々な視覚創作タスクの効率を大幅に向上させる。しかしながら、このようなツールが非倫理的な目的に悪用される可能性があり、例えば、偽情報を拡散するために機密性の高い、あるいは有害なコンテンツを生成するなど、社会的な課題が生じる可能性がある。これらの懸念に対処することは不可欠であり、潜在的な誤用を軽減するために、AIによって操作された画像を検出し、局所化するための複数の進行中の研究が行われている。

References

  • Bau et al. [2019a] David Bau, Jun-Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, and Antonio Torralba. Inverting layers of a large generator. In ICLR workshop, page 4, 2019a.
  • Bau et al. [2019b] David Bau, Jun-Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, and Antonio Torralba. Seeing what a gan cannot generate. In Proceedings of the IEEE/CVF international conference on computer vision, pages 4502–4511, 2019b.
  • Cao et al. [2023] Mingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie, and Yinqiang Zheng. Masactrl: Tuning-free mutual self-attention control for consistent image synthesis and editing. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 22560–22570, 2023.
  • Creswell and Bharath [2018] Antonia Creswell and Anil Anthony Bharath. Inverting the generator of a generative adversarial network. IEEE transactions on neural networks and learning systems, 30(7):1967–1974, 2018.
  • Dao et al. [2024] Trung Dao, Thuan Hoang Nguyen, Thanh Le, Duc Vu, Khoi Nguyen, Cuong Pham, and Anh Tran. Swiftbrush v2: Make your one-step diffusion model better than its teacher, 2024.
  • Deutch et al. [2024] Gilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, and Daniel Cohen-Or. Turboedit: Text-based image editing using few-step diffusion models, 2024.
  • Ding et al. [2020] Keyan Ding, Kede Ma, Shiqi Wang, and Eero P. Simoncelli. Image quality assessment: Unifying structure and texture similarity. CoRR, abs/2004.07728, 2020.
  • Garibi et al. [2024] Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or. Renoise: Real image inversion through iterative noising, 2024.
  • Gokaslan et al. [2023] Aaron Gokaslan, A Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, and Volodymyr Kuleshov. Commoncanvas: An open diffusion model trained with creative-commons images. arXiv preprint arXiv:2310.16825, 2023.
  • Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control, 2022.
  • Ju et al. [2024] Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, and Qiang Xu. Pnp inversion: Boosting diffusion-based editing with 3 lines of code. International Conference on Learning Representations (ICLR), 2024.
  • Kingma [2014] Diederik P Kingma. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
  • Lipton and Tripathi [2017] Zachary C Lipton and Subarna Tripathi. Precise recovery of latent vectors from generative adversarial networks. arXiv preprint arXiv:1702.04782, 2017.
  • Liu et al. [2024] Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, and Qiang Liu. Instaflow: One step is enough for high-quality diffusion-based text-to-image generation. In International Conference on Learning Representations, 2024.
  • Luo et al. [2023] Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, and Hang Zhao. Latent consistency models: Synthesizing high-resolution images with few-step inference. arXiv preprint arXiv:2310.04378, 2023.
  • Ma et al. [2018] Fangchang Ma, Ulas Ayaz, and Sertac Karaman. Invertibility of convolutional generative networks from partial measurements. Advances in Neural Information Processing Systems, 31, 2018.
  • Meng et al. [2023] Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans. On distillation of guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14297–14306, 2023.
  • Mokady et al. [2023] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6038–6047, 2023.
  • Nguyen and Tran [2024] Thuan Hoang Nguyen and Anh Tran. Swiftbrush: One-step text-to-image diffusion model with variational score distillation, 2024.
  • Nguyen et al. [2024] Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, and Cuong Pham. Flexedit: Flexible and controllable diffusion-based object-centric image editing, 2024.
  • Parmar et al. [2023] Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu. Zero-shot image-to-image translation, 2023.
  • Perarnau et al. [2016] Guim Perarnau, Joost Van De Weijer, Bogdan Raducanu, and Jose M Álvarez. Invertible conditional gans for image editing. arXiv preprint arXiv:1611.06355, 2016.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis, 2023.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2022.
  • Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding, 2022.
  • Salimans and Ho [2022] Tim Salimans and Jonathan Ho. Progressive distillation for fast sampling of diffusion models. arXiv preprint arXiv:2202.00512, 2022.
  • Sauer et al. [2024] Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, and Robin Rombach. Fast high-resolution image synthesis with latent adversarial diffusion distillation, 2024.
  • Sauer et al. [2025] Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach. Adversarial diffusion distillation. In European Conference on Computer Vision, pages 87–103. Springer, 2025.
  • Song et al. [2020] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. CoRR, abs/2010.02502, 2020.
  • Song et al. [2023] Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever. Consistency models, 2023.
  • Starodubcev et al. [2024] Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, and Dmitry Baranchuk. Invertible consistency distillation for text-guided image editing in around 7 steps. arXiv preprint arXiv:2406.14539, 2024.
  • Sun et al. [2024] Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, et al. Journeydb: A benchmark for generative image understanding. Advances in Neural Information Processing Systems, 36, 2024.
  • Tumanyan et al. [2023] Narek Tumanyan, Michal Geyer, Shai Bagon, and Tali Dekel. Plug-and-play diffusion features for text-driven image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1921–1930, 2023.
  • Wang et al. [2024] Tengfei Wang, Yong Zhang, Yanbo Fan, Jue Wang, and Qifeng Chen. High-fidelity gan inversion for image attribute editing, 2024.
  • Xia et al. [2022] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou, and Ming-Hsuan Yang. Gan inversion: A survey, 2022.
  • Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. 2023.
  • Yin et al. [2024a] Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, and William T. Freeman. Improved distribution matching distillation for fast image synthesis, 2024a.
  • Yin et al. [2024b] Tianwei Yin, Michaël Gharbi, Richard Zhang, Eli Shechtman, Fredo Durand, William T. Freeman, and Taesung Park. One-step diffusion with distribution matching distillation, 2024b.
  • Zhu et al. [2020] Jiapeng Zhu, Yujun Shen, Deli Zhao, and Bolei Zhou. In-domain gan inversion for real image editing, 2020.
  • Zhu et al. [2016] Jun-Yan Zhu, Philipp Krähenbühl, Eli Shechtman, and Alexei A Efros. Generative visual manipulation on the natural image manifold. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part V 14, pages 597–613. Springer, 2016.