JaLMS
最新の AI 研究を日本語で解読

UIP2P: Unsupervised Instruction-based Image Editing
via Cycle Edit Consistency

Enis Simsar1       Alessio Tonioni3       Yongqin Xian3       Thomas Hofmann1       Federico Tombari2,3
1ETH Zürich          2Technical University of Munich          3Google Switzerland
https://enis.dev/uip2p
Abstract

我々は、教師なしの指示ベース画像編集モデルを提案する。このモデルは、訓練時に正解となる編集済み画像を必要としない。既存の教師あり手法は、入力画像、編集済み画像、編集指示からなる三つ組のデータセットに依存している。これらは既存の編集手法や人間による注釈付けによって生成されるため、バイアスが導入され、汎化能力が制限される。我々の手法は、サイクル編集一貫性(Cycle Edit Consistency, CEC)と呼ばれる新しい編集メカニズムを導入することでこれらの課題に対処する。CECは、1回の訓練ステップで順方向と逆方向の編集を適用し、画像空間と注意空間での一貫性を強制する。これにより、正解となる編集済み画像の必要性を回避し、実際の画像-キャプションペアまたは画像-キャプション-編集の三つ組からなるデータセットでの訓練を初めて可能にする。我々は、この教師なし技術が、より広範囲の編集において高い忠実度と精度で優れた性能を発揮することを実証的に示す。既存の三つ組データセットの必要性を排除し、教師あり手法に関連するバイアスを軽減し、CECを提案することで、本稿は指示ベース画像編集のスケーリングを阻害する要因を取り除く上で重要な進歩を表している。

1 Introduction

拡散モデル(DM)は最近、主にテキストから画像生成のブレークスルーを通じて、高品質で多様な画像の生成において大きな進歩を遂げた [15, 36, 34, 33]。これにより、パーソナライズされた画像生成 [35, 45, 10]、コンテキストを考慮したインペインティング [23, 26, 49]、テキストプロンプトに基づく画像編集 [1, 13, 24, 18, 6]などのタスクに対する様々な技術が開発された。テキスト指示に基づく画像編集 [3] は、DMが堅牢な編集ツールとしての多様性を示している。

しかしながら、既存の手法は主に教師あり学習に依存しており、入力画像、編集済み画像、編集指示を含む大規模なトリプレットデータセットを必要とする[3, 50, 51, 9]。これらのデータセットは、しばしばPrompt-to-Promptのような編集手法[13]や人手によるアノテーションを用いて生成される。前者の解決策はデータセットの規模拡大を可能にするが、残念ながら、(a)属性が絡み合った編集や(b)シーンが絡み合った編集といったバイアスを導入し、画像の意図しない部分に影響を与えたり、(c)シーン全体に大きな変化をもたらしたりする( 2参照)。一方、人手によるアノテーションデータは貴重ではあるが、手動アノテーションに伴う高いコストと労力のため、大規模な訓練には現実的ではない。人手によるアノテーションや生成された正解編集画像への依存は、達成可能な編集の多様性を制限し、幅広いユーザー指示を理解し実行できるモデルの開発を妨げている。

我々は、UIP2Pを提示する。これは教示ベースの画像編集のための教師なしモデルであり、Cycle Edit Consistency (CEC)、すなわち順方向および逆方向の編集を適用することで得られる一貫性を導入することで、生成されたものであれ人間が注釈を付けたものであれ、トリプレットのデータセットへの依存を排除する。サイクル編集の間、明示的な監視の必要性を克服しつつ編集の一貫性を確保するために、我々はCLIP埋め込み空間におけるテキストと画像の整列を活用する[32]。さらに、我々は画像空間と注意空間の両方で明示的に一貫性を強制することで、UIP2Pモデルがユーザーの指示を正確に解釈し局所化し、編集が一貫性を持ち意図した変更を反映することを保証する。CECにより、UIP2Pは元のコンテンツの完全性を効果的に維持しながら正確な修正を行うことができ、さらに編集の信頼性を高めている。我々のアプローチは、既存のアプローチの限界と人間によるラベル付けの高コストのために以前は不可能だった、大規模な実画像データセットでのトレーニングを可能にする。結果として、本稿のアプローチは、従来の手法と比較して、教示ベースの画像編集の範囲と拡張性を大幅に拡大する。 我々の主要な貢献は以下の通りである:

  • 我々は、教示ベースの画像編集のための教師なし技術であるUIP2Pを導入する。これはトレーニング中に正解の編集済み画像を必要とせず、現在の教師あり手法に代わるより拡張性の高い選択肢を提供する。

  • 我々は、Cycle Edit Consistency (CEC)を提案する。これは、順方向および逆方向の編集を通じてサイクルされた際に一貫した編集を保証し、画像空間と注意空間の両方で一貫性を維持する新しいアプローチである。これにより、ユーザーの指示を正確に反映した精密で高忠実度の編集が可能になる。

  • 我々のアプローチは、様々な実画像データセットにわたって拡張性と多様性を示し、既存のデータセットに依存することなく幅広い編集を可能にし、教示ベースの画像編集の範囲を大幅に拡大する。

2 Related Work

CLIP-Based Image Manipulation.

StyleCLIP [29]は、テキスト駆動の画像操作のためにStyleGANとCLIPを組み合わせているが、特定の編集ごとに最適化が必要である。同様に、StyleGAN-NADA [11]は、CLIPのガイダンスを使用して生成モデルを修正することにより、ゼロショットドメイン適応を可能にしている。これらのアプローチは柔軟な編集を可能にするが、多くの場合、ドメイン固有のモデルや新しいタスクごとの最適化プロセスに依存している。これらの研究は、画像操作におけるCLIPの強力な意味的アラインメントの可能性を示しており、拡散モデルなどの他の生成フレームワークにおけるCLIPの使用を動機づけている。

Text-based Image Editing with Diffusion Models.

画像編集の一般的なアプローチの1つは、事前学習された拡散モデルを使用し、まず入力画像を潜在空間に逆変換し、その後テキストプロンプトを通じて編集を適用することである[25, 13, 44, 24, 6, 17, 27, 43, 47]。例えば、DirectInversion[17]は逆変換後にPrompt-to-Prompt[13]を使用して画像を編集するが、逆変換のステップにより元の画像から重要な詳細が失われる可能性がある。さらに、DiffusionCLIP[52]、CycleDiffusion[46]、CycleNet[48]、DualDiffusion[40]などの手法は、画像編集を改善する方法としてドメイン間変換を探求している。しかし、これらの手法は2つの固定されたドメイン間の変換に焦点を当てているため、オブジェクトの挿入や削除などの複雑な編集を扱うことが困難である。対照的に、我々はドメイン変換に限定されない汎用的な画像編集アプローチに焦点を当てており、より広範な編集を柔軟に扱うことができる。

画像編集のもう一つのアプローチは、入力画像、編集指示、編集後の画像の3つ組からなるデータセットでモデルを訓練する方法である[3, 50, 51]。これらの手法は、入力画像を直接条件として扱うため、逆変換のステップを必要としない。 InstructDiffusion[12]はInstructPix2Pixを基に、より広範なビジョンタスクを扱えるようにしたが、より高度な推論には困難を伴う。MGIE[9]は、大規模なマルチモーダル言語モデルを使用してより正確な指示を生成することでこれを改善している。SmartEdit[16]はさらに一歩進んで、双方向相互作用モジュールを導入し、画像とテキストの特徴をより良く接続することで、困難な編集シナリオでのパフォーマンスを向上させている。

画像編集における大きな課題は、大規模で高品質な3つ組データセットの必要性である。InstructPix2Pix[3]は、GPT-3[4]とPrompt-to-Prompt[13]を使用して大規模なデータセットを生成することでこの問題に部分的に対処している。しかし、これはデータ不足を緩和する一方で、Prompt-to-Promptからのモデルバイアスなどの問題を引き起こす。MagicBrush[50]は人間によってアノテーションされたデータセットを用いて品質の面に取り組んでいるが、このアプローチは小規模であり、より広範な使用には実用性が限られている。

我々のアプローチは、画像とテキストを整列させるためにCLIPの意味空間を活用し、より堅牢なソリューションを提供する。Cycle Edit Consistency (CEC)の導入により、データセットの制限とモデルバイアスの両方に対処し、順方向と逆方向の編集間の一貫性を確保している。我々のアプローチは、複雑な指示に対するスケーラビリティと精度を向上させ、3つ組データセットへの依存を排除し、実画像の任意の画像-キャプションデータセットに適用可能である。さらに、CECはInstructPix2Pixのトレーニングフェーズのみを変更するため、任意のモデル拡張とシームレスに統合できる。

3 Background

3.1 Latent Diffusion Models (LDMs)

Stable Diffusion(SD)は、テキストガイド付き画像生成のために設計された著名な潜在拡散モデル(LDM)である[34]。LDMは、通常、事前学習された変分オートエンコーダのボトルネックから導出される圧縮された潜在空間で動作し、計算効率を向上させる。ガウスノイズから始まり、モデルはテキスト条件付けによって導かれる反復的な逆ノイズ化プロセスを通じて、徐々に画像を構築する。このプロセスは、U-Netベースのアーキテクチャによって駆動され[8]、自己注意機構と交差注意機構を利用する。自己注意機構は進化する画像表現を洗練させ、交差注意機構はテキストガイダンスを統合する。

交差注意機構は、LDMにおける画像生成の方向付けに重要である。各交差注意層は、クエリ(Q𝑄Qitalic_Q)、キー(K𝐾Kitalic_K)、値(V𝑉Vitalic_V)の3つの主要コンポーネントで構成される。クエリは中間画像特徴から線形変換(fQsubscript𝑓𝑄f_{Q}italic_f start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT)を通じて生成され、キーと値はテキスト条件付けから線形変換(fKsubscript𝑓𝐾f_{K}italic_f start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPTおよびfVsubscript𝑓𝑉f_{V}italic_f start_POSTSUBSCRIPT italic_V end_POSTSUBSCRIPT)を用いて抽出される。 1で定式化される注意機構は、テキスト記述に基づいて進化する画像のどの領域を修正すべきかを示す注意マップを計算する。我々は、これらの注意マップを損失関数で利用して、望ましい編集を局所化し、局所的で一貫性のある画像編集を可能にする。

Attention(Q,K,V)=Softmax(QKTd)VAttention𝑄𝐾𝑉Softmax𝑄superscript𝐾𝑇𝑑𝑉\begin{split}\text{Attention}&(Q,K,V)=\text{Softmax}\left(\frac{QK^{T}}{\sqrt{% d}}\right)\cdot V\end{split}start_ROW start_CELL Attention end_CELL start_CELL ( italic_Q , italic_K , italic_V ) = Softmax ( divide start_ARG italic_Q italic_K start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT end_ARG start_ARG square-root start_ARG italic_d end_ARG end_ARG ) ⋅ italic_V end_CELL end_ROW (1)

3.2 InstructPix2Pix (IP2P)

我々の手法は、テキスト条件付き画像変換のためのLDMベースのフレームワークであるInstructPix2Pix (IP2P) [3]に基づいている。Stable Diffusionと同様に、IP2PはU-Netアーキテクチャを採用している。IP2Pの条件付きフレームワークにより、入力画像(I𝐼Iitalic_I)とテキスト指示(T𝑇Titalic_T)の両方を同時に利用して画像修正を導くことができる。Classifier-free guidance (CFG) [14]が使用され、係数(sIsubscript𝑠𝐼s_{I}italic_s start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPTsTsubscript𝑠𝑇s_{T}italic_s start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPT)が編集中のテキストと元の画像の影響を制御する。学習されたネットワークから予測されたノイズベクトル(eθsubscript𝑒𝜃e_{\theta}italic_e start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT)が線形に結合され、最終的なスコア推定e~θsubscript~𝑒𝜃\tilde{e}_{\theta}over~ start_ARG italic_e end_ARG start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTが生成される。

InstructPix2Pixは、入力画像、編集指示、編集された画像の三つ組からなるデータセットで訓練される。このデータセットは、実際のキャプションに基づいてSDによって生成された合成画像、LLMによって生成された編集指示、そしてPrompt-to-Prompt [13]を使用して得られた編集済み画像で構成されている。 合成データセットへの依存は、本稿で取り組むべきいくつかの制限をもたらす。第一に、IP2Pのようなモデルは合成データのみで訓練されるため、実世界の画像データセットでの訓練時の適用可能性が制限される。第二に、その性能は本質的にPrompt-to-Prompt手法によって生成される画像の品質に制約され、 2で示されるように、編集プロセスにバイアスをもたらす。

Refer to caption
図3: UIP2P訓練フレームワークの概要。このモデルは、順方向と逆方向の指示を利用して、指示に基づく画像編集を学習する。入力画像と順方向指示から始まり、モデルはIP2Pを使用して編集済み画像を生成する。その後、逆方向指示を適用して元の画像を再構築し、Cycle Edit Consistency (CEC)を強制する。

4 Method

InstructPix2Pix [3]のような既存の研究とは異なり、指示に基づく編集のために入力画像と編集済み画像のペアデータセットに依存するのではなく、我々は実画像と対応する編集指示のみを必要とする教師なし技術を利用し、正解となる編集済み画像の必要性を排除している。端的に言えば、画像と順方向の編集指示(例えば、「空をピンク色に変える」)が与えられると、我々は編集済み画像を生成する。その後、編集済み画像に逆方向の指示(例えば、「空を青色に戻す」)を適用し、元の入力を復元することを目指す。順方向-逆方向の編集の過程で、我々は提案するCycle Edit Consistency (CEC)を適用し、編集が可逆であり、画像と注意空間の両方で一貫性を維持することを保証する。このアプローチにより、合成データや編集済みのペアデータセットの制限なしに、様々な実画像データセットにわたって指示に基づく画像編集を拡張することが可能となる。以下のセクションでは、我々のアプローチを詳細に説明し、フレームワークの主要コンポーネント(セクション 4.1)、一貫性を強制するために使用される損失関数、および訓練データ生成手順(セクション 4.2)について述べる。

4.1 Framework

4.1.1 UIP2P

我々の手法の核心は、サイクル編集一貫性(Cycle Edit Consistency, CEC)の概念である。これは、画像に適用された編集が、対応する逆指示を通じて元の入力に戻せることを保証するものである。 我々のフレームワークであるUIP2Pは、CECを強制し、編集プロセス中の意味的および視覚的一貫性を維持するために設計された4つの主要コンポーネントを導入している。これは、拡散ステップ間で予測を効果的に再利用するメカニズムを活用して編集プロセスを強化するものである(概要は 3に示されている):

  1. 1.

    テキストと画像の方向一貫性:我々はCLIP埋め込み[31]を活用して、テキスト指示と画像修正の間の意味的関係を整合させる。CLIPの埋め込み空間内で操作することで、我々のモデルは入力画像と編集された画像の関係が、それぞれのキャプションの関係に対応することを保証する。この整合性は、サイクル編集一貫性(CEC)を強制するために重要であり、入力画像の構造を保持しながら望ましい編集が適用されることを保証する。

  2. 2.

    注意マップの一貫性:編集プロセス全体を通じて一貫性を維持するために、順方向と逆方向の編集中に生成される注意マップが整合するよう強制する。これにより、モデルが初期編集とその逆転の間で画像の同じ領域に一貫して焦点を当てることを保証する。注意マップの一貫性は、訓練目的を正則化し、学習された編集が適切に局在化されることを保証する。

  3. 3.

    再構成の一貫性:CECを強制する中心として、モデルは逆指示を適用した後に元の入力画像を再構成しなければならない。これにより、モデルが確実に編集を元に戻せることを保証する。我々は、再構成された画像と元の入力との間のピクセル単位および意味的な差異を最小化することでこれを達成し、適用された編集とその逆転の間の一貫性を確保する。

  4. 4.

    異なる拡散ステップでの統一予測:我々は異なる拡散ステップ(順方向にt𝑡titalic_t、逆方向にt^^𝑡\hat{t}over^ start_ARG italic_t end_ARG)をサンプリングし、それぞれ1ステップのϵ^Fsubscript^italic-ϵ𝐹\hat{\epsilon}_{F}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_F end_POSTSUBSCRIPTϵ^Rsubscript^italic-ϵ𝑅\hat{\epsilon}_{R}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPTを独立して予測し、最終的に順方向(F)でt𝑡titalic_tステップ、逆方向(R)でt^^𝑡\hat{t}over^ start_ARG italic_t end_ARGステップにわたって適用して画像を再構成する。したがって、訓練中は効果的に1つのノイズ除去ステップで予測を行う。ステップ間で同じ予測を再利用することで計算コストを削減する。

これらのコンポーネント—テキストと画像の方向一貫性、注意マップの一貫性、再構成の一貫性、および異なる拡散ステップでの統一予測—を組み合わせることで、我々のフレームワークはCECを強制し、多様な実画像データセットにわたって訓練することを可能にする。 この合成データセットを超えて一般化する能力は、実世界の指示ベースの画像編集シナリオにおける我々の手法の汎用性を強調するものである。

4.1.2 Loss Functions

サイクル編集一貫性(CEC)を強制し、編集および再構成プロセス中の視覚的および意味的一貫性を確保するために、我々は各訓練反復に追加の損失項を導入する。我々のアプローチでは、訓練サンプルは入力画像、テキストでの編集指示、およびそれに対応する逆指示、さらに画像の入力キャプションと編集されたキャプションで構成される。これらのサンプルがどのように生成されるかについては、後のセクションでさらに詳細を提供する。

CLIP Direction Loss.

この損失は、画像に適用される変換がCLIPの意味空間内でテキスト指示と整合することを保証する[11]。入力画像(EIinputsubscript𝐸subscript𝐼inputE_{I_{\text{input}}}italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT input end_POSTSUBSCRIPT end_POSTSUBSCRIPT)、編集された画像(EIeditsubscript𝐸subscript𝐼editE_{I_{\text{edit}}}italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT)、入力キャプション(ETinputsubscript𝐸subscript𝑇inputE_{T_{\text{input}}}italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT input end_POSTSUBSCRIPT end_POSTSUBSCRIPT)、および編集されたキャプション(ETeditsubscript𝐸subscript𝑇editE_{T_{\text{edit}}}italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT)のCLIP埋め込みが与えられた場合、損失は以下のように定義される:

CLIP=1cos(EIeditEIinput,ETeditETinput)subscriptCLIP1subscript𝐸subscript𝐼editsubscript𝐸subscript𝐼inputsubscript𝐸subscript𝑇editsubscript𝐸subscript𝑇input\mathcal{L}_{\text{CLIP}}=1-\cos\left(E_{I_{\text{edit}}}-E_{I_{\text{input}}}% ,E_{T_{\text{edit}}}-E_{T_{\text{input}}}\right)caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPT = 1 - roman_cos ( italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT - italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT input end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT - italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT input end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) (2)

この損失は、画像空間における変化の方向をテキスト空間で記述された変換の方向と整合させ、修正が編集の意図した意味を反映することを保証する。これにより、モデルは画像空間での変換を対応するテキスト修正と整合させる。しかし、空間的一貫性を確保することも同様に重要であり、これは注意マップ一貫性損失で対処する。

Attention Map Consistency Loss.

順方向と逆方向の編集の両方で画像の同じ領域が編集されることを保証するために、我々は注意マップ一貫性損失を定義する。Af(i)superscriptsubscript𝐴𝑓𝑖A_{f}^{(i)}italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPTAr(i)superscriptsubscript𝐴𝑟𝑖A_{r}^{(i)}italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPTを、順方向および逆方向の編集中のU-netモデルのi𝑖iitalic_i番目の層からのクロスアテンションマップとする。損失は以下のように定義される:

attn=iAf(i)Ar(i)2subscriptattnsubscript𝑖subscriptnormsuperscriptsubscript𝐴𝑓𝑖superscriptsubscript𝐴𝑟𝑖2\mathcal{L}_{\text{attn}}=\sum_{i}\left\|A_{f}^{(i)}-A_{r}^{(i)}\right\|_{2}caligraphic_L start_POSTSUBSCRIPT attn end_POSTSUBSCRIPT = ∑ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∥ italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPT - italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_i ) end_POSTSUPERSCRIPT ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT (3)

この損失は、編集と逆転の両段階で空間的一貫性を確保し、CECの重要な要件である。これにより、編集を逆転させる際に注意が同じ領域に集中することが保証される。

CLIP Similarity Loss.

この損失は、編集された画像が提供されたテキスト指示と意味的に整合したままであることを促進する。これは、編集された画像(EIeditsubscript𝐸subscript𝐼editE_{I_{\text{edit}}}italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT)と編集されたキャプション(ETeditsubscript𝐸subscript𝑇editE_{T_{\text{edit}}}italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT)のCLIP埋め込み間のコサイン類似度として計算される:

sim=1cos(EIedit,ETedit)subscriptsim1subscript𝐸subscript𝐼editsubscript𝐸subscript𝑇edit\mathcal{L}_{\text{sim}}=1-\cos(E_{I_{\text{edit}}},E_{T_{\text{edit}}})caligraphic_L start_POSTSUBSCRIPT sim end_POSTSUBSCRIPT = 1 - roman_cos ( italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_E start_POSTSUBSCRIPT italic_T start_POSTSUBSCRIPT edit end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) (4)

この損失は、生成された画像が指示内の望ましい編集と整合することを保証し、順方向および逆方向のプロセス間の意味的一貫性を保持する—これはCECの本質的な側面である。

Reconstruction Loss.

逆編集後に元の画像が回復されることを保証するために、我々は再構成損失を採用する。この損失は、ピクセル単位の損失とCLIPベースの意味的損失の2つのコンポーネントで構成される。総再構成損失は以下のように定義される:

recon=IinputIrecon2+1cos(EIinput,EIrecon)subscriptreconsubscriptnormsubscript𝐼inputsubscript𝐼recon21subscript𝐸subscript𝐼inputsubscript𝐸subscript𝐼recon\mathcal{L}_{\text{recon}}=\|I_{\text{input}}-I_{\text{recon}}\|_{2}+1-\cos(E_% {I_{\text{input}}},E_{I_{\text{recon}}})caligraphic_L start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT = ∥ italic_I start_POSTSUBSCRIPT input end_POSTSUBSCRIPT - italic_I start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT + 1 - roman_cos ( italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT input end_POSTSUBSCRIPT end_POSTSUBSCRIPT , italic_E start_POSTSUBSCRIPT italic_I start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) (5)

この損失は、モデルが編集を忠実に逆転させ、逆指示が適用されたときに元の画像に戻ることができることを保証し、入力画像と再構成された画像の間の差異を最小化することでCECを強制する。

表1: 逆指示生成。 我々の手法は、IP2Pデータセットに対して逆指示を生成し、手動で編集された画像の必要性を排除する。さらに、CC3MおよびCC12Mデータセット(CCXMと表記)に対して編集指示、編集されたキャプション、および逆指示が生成される。テキストはGEMINI ProやGEMMA2などのLLMによって生成される。
Input Caption Edit Instruction Edited Caption Reverse Instruction
IP2P A man wearing a denim jacket make the jacket a rain coat A man wearing a rain coat make the coat a denim jacket
A sofa in the living room add pillows A sofa in the living room with pillows remove the pillows
\cdots \cdots \cdots \cdots
CCXM Person on the cover of a magazine make the person a cat Cat on the cover of the magazine make the cat a person
A tourist rests against a concrete wall give him a backpack A tourist with a backpack rests against a concrete wall remove his backpack
\cdots \cdots \cdots \cdots

4.1.3 Total Loss

モデルの訓練に使用される総損失関数は、個々の損失の重み付け組み合わせであり、再帰的ではなく単一ステップのノイズ予測に適用される:

CEC=λCLIPCLIP+λattnattn+λsimsim+λreconreconsubscriptCECsubscript𝜆CLIPsubscriptCLIPsubscript𝜆attnsubscriptattnsubscript𝜆simsubscriptsimsubscript𝜆reconsubscriptrecon\mathcal{L}_{\text{CEC}}=\lambda_{\text{CLIP}}\mathcal{L}_{\text{CLIP}}+% \lambda_{\text{attn}}\mathcal{L}_{\text{attn}}+\lambda_{\text{sim}}\mathcal{L}% _{\text{sim}}+\lambda_{\text{recon}}\mathcal{L}_{\text{recon}}caligraphic_L start_POSTSUBSCRIPT CEC end_POSTSUBSCRIPT = italic_λ start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT attn end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT attn end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT sim end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT sim end_POSTSUBSCRIPT + italic_λ start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT (6)

ここで、λCLIPsubscript𝜆CLIP\lambda_{\text{CLIP}}italic_λ start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPTλattnsubscript𝜆attn\lambda_{\text{attn}}italic_λ start_POSTSUBSCRIPT attn end_POSTSUBSCRIPTλsimsubscript𝜆sim\lambda_{\text{sim}}italic_λ start_POSTSUBSCRIPT sim end_POSTSUBSCRIPT、およびλreconsubscript𝜆recon\lambda_{\text{recon}}italic_λ start_POSTSUBSCRIPT recon end_POSTSUBSCRIPTは各損失の相対的な重みを制御するハイパーパラメータである。

4.2 Training Data

画像と編集指示を含むデータセットでCEC訓練を可能にするため[3]、我々はGEMMA2 [42]やGEMINI [41]などの大規模言語モデル(LLM)を活用して、逆編集指示を自動生成している。これらのLLMは、最小限のコストと労力で逆指示を取得するための効率的かつスケーラブルなソリューションを提供する[3]。 我々はGEMINI Proを使用して、入力キャプション、編集指示、対応する編集済みキャプションに基づいてIP2Pデータセットに逆指示を追加している。モデルのパフォーマンスを向上させるため、このプロセスでは少数ショットプロンプティングを採用しており、手動でペアにしたデータセットを必要とせずに逆指示を生成することができ、スケーラビリティを大幅に向上させている。LLMによって生成された逆指示は、編集された画像を元の形に戻すことを目的としている( 1のIP2Pセクションを参照)。 逆指示を追加したデータセット( 1のIP2Pセクションを参照)を使用して、我々はGEMMA2 [42]を微調整し、入力キャプションに基づいて編集指示、編集済みキャプション、および逆指示を生成できるようにしている。この微調整されたモデルを使用することで、CC3MやCC12Mなどの画像-キャプションペアのデータセット[37, 5]での訓練が可能となり、順方向および逆方向の編集と対応する編集済みキャプションを生成している( 1のCCXMセクションを参照)。

5 Experiments

5.1 Experimental Setup

データセットの生成。 我々の手法を訓練するために、セクション 4.2で詳述したように、順方向と逆方向の指示がペアになったデータセットを生成する。初期実験では、InstructPix2Pixデータセット[3]を使用する。これは生成された画像-キャプションのペアと編集指示を提供している。さらに、我々の実験を実画像データセットに拡張する。実画像データセットにはCC3M[37]とCC12M[5]が含まれ、各画像-キャプションのペアに対して8つの可能な編集を生成する。これにより編集タスクの多様性が増し、モデルが様々な変換に触れることで、異なるタイプの編集や実世界のシナリオに対する一般化能力が向上する。

ベースライン。 我々は、いくつかのモデルと比較することで我々の手法を評価する。主要なベースラインはInstructPix2Pix[3]であり、これは訓練時に正解の編集済み画像に依存する教師あり手法である。我々の教師なしアプローチの利点を示すために、IP2Pと我々のモデルの両方を同じデータセットで訓練およびテストするが、我々の手法は訓練時に正解の編集済み画像を使用しない。 また、我々の手法をMagicBrush[50]、HIVE[51]、MGIE[9]、SmartEdit[16]などの他の指示ベースの編集モデルとも比較する。これらの追加比較により、我々の教師なしモデルが、正解の編集済み画像を生成するための既存の編集手法や人手によるアノテーションデータを必要とせずに、多様で複雑な編集をどれほど効果的に処理できるかを評価することができる。

実装の詳細。 我々の手法であるUIP2Pは、SD-v1.5モデル[34]をファインチューニングし、教師ありデータセットでの事前訓練は行わない。IP2Pのアーキテクチャは維持しつつ、我々のアプローチでは異なる訓練目的を用い、主にCycle Edit Consistency (CEC)の強制に焦点を当てる。具体的には、SD-v1.5に統合されたCLIP ViT-L/14モデルを使用して損失を計算する。順方向にはt𝑡titalic_t、逆方向にはt^^𝑡\hat{t}over^ start_ARG italic_t end_ARGの拡散ステップ(0-1000の間でサンプリング、IP2P訓練で提案されたもの)にわたって単一のノイズ予測を使用することで、我々のモデルはIP2Pに対して計算オーバーヘッドを削減し(セクション 5.4を参照)、順方向と逆方向の編集間の一貫性を維持する。この予測の再利用により、IP2Pよりも少ない推論ステップで効率的かつ正確な編集が可能となり、セクション 5.4で経験的に示されるように、一般化と性能の両方が向上する。UIP2Pは、AdamWオプティマイザー[22]を使用し、バッチサイズ768で11K回の反復にわたって訓練される。基本学習率は5e-05に設定される。すべての実験はPyTorch[28]で実装され、16台のNVIDIA H100 GPUで実行される。損失の重みはλCLIP=1.0subscript𝜆CLIP1.0\lambda_{\text{CLIP}}=1.0italic_λ start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPT = 1.0λattn=0.5subscript𝜆attn0.5\lambda_{\text{attn}}=0.5italic_λ start_POSTSUBSCRIPT attn end_POSTSUBSCRIPT = 0.5λsim=1.0subscript𝜆sim1.0\lambda_{\text{sim}}=1.0italic_λ start_POSTSUBSCRIPT sim end_POSTSUBSCRIPT = 1.0、およびλrecon=1.0subscript𝜆recon1.0\lambda_{\text{recon}}=1.0italic_λ start_POSTSUBSCRIPT recon end_POSTSUBSCRIPT = 1.0に設定される。CECsubscriptCEC\mathcal{L}_{\text{CEC}}caligraphic_L start_POSTSUBSCRIPT CEC end_POSTSUBSCRIPTの検証損失に基づいて最良の構成を選択する。

Refer to caption
図4:定性的な例。 UIP2Pの性能が、InstructPix2Pix、MagicBrush、HIVE、MGIE、およびSmartEditと比較して、様々なタスクとデータセットにわたって示されている。我々の手法は、要求された編集を正確に適用しつつ視覚的一貫性を保持する点で、同等またはそれ以上の結果を示している。

5.2 Qualitative Results

我々はUIP2Pを、InstructPix2Pix [3]、MagicBrush [50]、HIVE [51]、MGIE [9]、SmartEdit [16]を含む最先端の手法と、様々なデータセット [3, 50, 38, 39]で比較する。タスクには色の変更、オブジェクトの削除、構造的変更が含まれる。UIP2Pは一貫して高品質な編集を生成し、視覚的一貫性を維持しながら正確に変換を適用する。例えば、「鳥を黄色に変える」というタスクでは、UIP2Pは鳥の形状を保持しつつ、より自然な色の変更を提供する。「熱気球を削除する」や「帽子の色を青に変える」などのタスクでも同様の改善が見られる。これらの結果は、UIP2Pが多様な編集を処理する能力を示しており、しばしば他の手法と同等かそれ以上の性能を発揮している。 4を参照されたい。

5.3 Quantitative Results

5.3.1 User Study

表2: ユーザースタディ。
Models (Q1) (Q2)
IP2P 8% 12%
MagicBrush 17% 18%
HIVE 14% 13%
MGIE 20% 19%
SmartEdit 19% 18%
UIP2P 22% 20%

我々は、Prolificプラットフォーム[30]で52人の参加者を対象に、IP2P、MagicBrush、HIVE、MGIE、SmartEdit、UIP2Pの6つの手法を評価するユーザースタディを実施した。評価には、様々なデータセット[3, 50, 38, 39]からランダムにサンプリングされた15の画像編集指示を用いた。各指示に対して、参加者はSmartEdit[16]で提案されているように、最良の2つの手法を選択した。選択基準は、(Q1)編集が指示と位置特定にどの程度合致しているか、(Q2)編集が意図した領域にどの程度正確に適用されているかである。表は各質問に対して各手法が上位パフォーマーとして選ばれた割合をまとめている。UIP2Pが最も高い選好スコアを達成し、MGIEとSmartEditがそれに続いている。しかし、これらの手法とは異なり、我々のアプローチは推論時に遅延のペナルティを導入せず、精度と効率性の両方を提供している。

Settings Methods L1\downarrow L2\downarrow CLIP-I\uparrow DINO\uparrow CLIP-T\uparrow
Single-turn HIVE [51] 0.1092 0.0341 0.8519 0.7500 0.2752
InstructPix2Pix [3] 0.1122 0.0371 0.8524 0.7428 0.2764
UIP2P w/ IP2P Dataset 0.0722 0.0193 0.9243 0.8876 0.2944
UIP2P w/ CC3M Dataset 0.0680 0.0183 0.9262 0.8924 0.2966
UIP2P w/ CC12M Dataset 0.0619 0.0174 0.9318 0.9039 0.2964
Multi-turn HIVE [51] 0.1521 0.0557 0.8004 0.6463 0.2673
InstructPix2Pix [3] 0.1584 0.0598 0.7924 0.6177 0.2726
UIP2P w/ IP2P Dataset 0.1104 0.0358 0.8779 0.8041 0.2892
UIP2P w/ CC3M Dataset 0.1040 0.0337 0.8816 0.8130 0.2909
UIP2P w/ CC12M Dataset 0.0976 0.0323 0.8857 0.8235 0.2901
(a) MagicBrush [50]テストセットにおけるゼロショット定量比較。 MagicBrushでファインチューニングされていない指示ベースの編集手法が示されている。マルチターン設定では、初期画像から反復的に目標画像が編集される。
Refer to caption
(b) IP2Pテストデータセットでの評価。 UIP2PはCLIP画像類似度とCLIPテキスト-画像類似度の両方の指標でIP2Pを上回り、より優れた視覚的忠実性と指示との整合性を示している。
図5: MagicBrushとIP2Pテストデータセットでの評価。

5.3.2 IP2P Test Dataset

我々は、5Kの画像-指示ペアを含むIP2Pテスト分割で我々の手法を評価した。[3]に従い、視覚的忠実性にはCLIP画像類似度を、指示との整合性評価にはCLIPテキスト-画像類似度を使用した。両指標でより高いスコアが良好なパフォーマンス(右上隅)を示し、画像の詳細を保持(画像類似度)しつつ、効果的に編集を適用(方向類似度)していることを意味する。プロットに示されているように、UIP2Pは両指標においてIP2Pを上回っている。これらの実験では、テキストスケールsTsubscript𝑠𝑇s_{T}italic_s start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTは固定され、画像スケールsIsubscript𝑠𝐼s_{I}italic_s start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT1.01.01.01.0から2.22.22.22.2まで変化させている。

5.3.3 MagicBrush Test Dataset

MagicBrushテスト分割には、535のセッション(反復編集のためのソース画像)と1053のターン(個別の編集ステップ)が含まれている。ピクセル精度にはL1およびL2ノルムを、画像品質にはコサイン類似度を用いたCLIP-IおよびDINO埋め込みを、局所的なテキスト記述との整合性確保にはCLIP-Tを使用している。 LABEL:tab:mb-quantitativeに示されているように、UIP2Pは単一ターンおよびマルチターンの両設定で最高のパフォーマンスを示している。HIVEは編集された画像に対する人間のフィードバックを利用してユーザーの好みを理解し、学習された報酬に基づいてIP2Pをファインチューニングすることで、モデルをより人間の期待に近づけていることに注意することが重要である。 LABEL:tab:mb-quantitativeはまた、トレーニングデータセットのサンプル数を増やし、実際の画像でトレーニングすることが、合成データセットであるIP2Pデータセットでトレーニングするよりも優れたパフォーマンスを提供することを示している。

5.4 Ablation Study

損失関数。 我々は、MagicBrushテストセット(単一ターン)でゼロショット評価を実施し、異なる損失関数の有効性を評価した。CLIPsubscript𝐶𝐿𝐼𝑃\mathcal{L}_{CLIP}caligraphic_L start_POSTSUBSCRIPT italic_C italic_L italic_I italic_P end_POSTSUBSCRIPTreconsubscript𝑟𝑒𝑐𝑜𝑛\mathcal{L}_{recon}caligraphic_L start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPTを含む基本構成から始め、同じ指標で中程度の性能を観察した。simsubscript𝑠𝑖𝑚\mathcal{L}_{sim}caligraphic_L start_POSTSUBSCRIPT italic_s italic_i italic_m end_POSTSUBSCRIPT損失を追加することで、モデルはより自由に編集を行うことができるようになる。これは、基本構成がそれなしでは入力画像に似た出力を生成する傾向があるためである。最後に、attnsubscript𝑎𝑡𝑡𝑛\mathcal{L}_{attn}caligraphic_L start_POSTSUBSCRIPT italic_a italic_t italic_t italic_n end_POSTSUBSCRIPTは、モデルの関連領域への焦点を強化し、順方向と逆方向のプロセス間で関心領域の一貫性を確保する。

表3: 損失関数に関するアブレーション実験。 基本損失関数に追加の損失関数を加えることで、MagicBenchmarkにおける性能が向上する。
Loss L1\downarrow L2\downarrow CLIP-I\uparrow DINO\uparrow CLIP-T\uparrow
Base 0.117 0.032 0.878 0.806 0.309
+ simsubscript𝑠𝑖𝑚\mathcal{L}_{sim}caligraphic_L start_POSTSUBSCRIPT italic_s italic_i italic_m end_POSTSUBSCRIPT 0.089 0.024 0.906 0.872 0.301
+ attnsubscript𝑎𝑡𝑡𝑛\mathcal{L}_{attn}caligraphic_L start_POSTSUBSCRIPT italic_a italic_t italic_t italic_n end_POSTSUBSCRIPT 0.062 0.017 0.932 0.904 0.296

ステップ数。 我々は、推論時の拡散ステップ数を変化させる効果を分析した。ステップ数を減らすと計算時間は短縮されるが、画像品質に影響を与える可能性がある。我々の実験では、UIP2Pはわずか5ステップでも高品質の編集を維持し、精度を犠牲にすることなく大幅な高速化を実現することが示された。対照的に、IP2Pは同様の結果を得るためにより多くのステップを必要とする。 6に示すように、UIP2Pは特に少ない推論ステップ数において、品質と効率の両面でIP2Pを一貫して上回っている。

Refer to caption
図6: ステップ数に関するアブレーション実験。 UIP2Pは少ないステップ数で入力画像に対して高忠実度の編集を達成するが、IP2Pは品質を維持するのに苦労している。

6 Conclusion

本稿では、UIP2Pという教師なし指示ベースの画像編集フレームワークを提示する。これは、Cycle Edit Consistency (CEC)を活用して、正解の編集済み画像に依存せずに可逆的かつ一貫性のある編集を保証するものである。我々のアプローチの主要な構成要素には、テキストと画像の方向一貫性、注意マップの一貫性、再構成の一貫性、および異なる拡散ステップでの統一予測が含まれ、これらが画像空間と注意空間の両方で一貫性を強制する。実画像データセットでの実験を通じて、UIP2Pが元の画像の構造を維持しながら、高品質で精密な編集を提供することを示す。既存の手法と競争力のある性能を発揮し、手動でアノテーションされたデータセットを必要とせずに多様な編集タスクに効率的にスケールする我々のアプローチの有効性を実証している。

References

  • Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022, pages 18187–18197. IEEE, 2022.
  • Bar-Tal et al. [2022] Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, and Tali Dekel. Text2live: Text-driven layered image and video editing. In Computer Vision - ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XV, pages 707–723. Springer, 2022.
  • Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A. Efros. Instructpix2pix: Learning to follow image editing instructions. In CVPR, 2023.
  • Brown et al. [2020] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020.
  • Changpinyo et al. [2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3558–3568, 2021.
  • Couairon et al. [2023] Guillaume Couairon, Jakob Verbeek, Holger Schwenk, and Matthieu Cord. Diffedit: Diffusion-based semantic image editing with mask guidance. In The Eleventh International Conference on Learning Representations, 2023.
  • Crowson et al. [2022] Katherine Crowson, Stella Biderman, Daniel Kornis, Dashiell Stander, Eric Hallahan, Louis Castricato, and Edward Raff. VQGAN-CLIP: open domain image generation and editing with natural language guidance. In Computer Vision - ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXXVII, pages 88–105. Springer, 2022.
  • Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.
  • Fu et al. [2023] Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, and Zhe Gan. Guiding instruction-based image editing via multimodal large language models. arXiv preprint arXiv:2309.17102, 2023.
  • Gal et al. [2022a] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion, 2022a.
  • Gal et al. [2022b] Rinon Gal, Or Patashnik, Haggai Maron, Amit H. Bermano, Gal Chechik, and Daniel Cohen-Or. Stylegan-nada: Clip-guided domain adaptation of image generators. ACM Trans. Graph., 41(4):141:1–141:13, 2022b.
  • Geng et al. [2023] Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, et al. Instructdiffusion: A generalist modeling interface for vision tasks. arXiv preprint arXiv:2309.03895, 2023.
  • Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. CoRR, abs/2208.01626, 2022.
  • Ho and Salimans [2021] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
  • Huang et al. [2024] Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, et al. Smartedit: Exploring complex instruction-based image editing with multimodal large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8362–8371, 2024.
  • Ju et al. [2023] Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, and Qiang Xu. Direct inversion: Boosting diffusion-based editing with 3 lines of code. arXiv preprint arXiv:2310.01506, 2023.
  • Kawar et al. [2022] Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. Imagic: Text-based real image editing with diffusion models. CoRR, abs/2210.09276, 2022.
  • Kenthapadi et al. [2023] Krishnaram Kenthapadi, Himabindu Lakkaraju, and Nazneen Rajani. Generative ai meets responsible ai: Practical challenges and opportunities. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 5805–5806, 2023.
  • Korshunov and Marcel [2018] Pavel Korshunov and Sébastien Marcel. Deepfakes: a new threat to face recognition? assessment and detection. arXiv preprint arXiv:1812.08685, 2018.
  • Liu et al. [2020] Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang Wang, and Hongsheng Li. Open-edit: Open-domain image manipulation with open-vocabulary instructions. In Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XI, pages 89–106. Springer, 2020.
  • Loshchilov [2017] I Loshchilov. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
  • Lugmayr et al. [2022] Andreas Lugmayr, Martin Danelljan, Andrés Romero, Fisher Yu, Radu Timofte, and Luc Van Gool. Repaint: Inpainting using denoising diffusion probabilistic models. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022, pages 11451–11461. IEEE, 2022.
  • Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In International Conference on Learning Representations, 2022.
  • Mokady et al. [2022] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. CoRR, abs/2211.09794, 2022.
  • Nichol et al. [2022] Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2022, pages 16784–16804. PMLR, 2022.
  • Parmar et al. [2023] Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu. Zero-shot image-to-image translation. In ACM SIGGRAPH 2023 Conference Proceedings, pages 1–11, 2023.
  • Paszke et al. [2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32, 2019.
  • Patashnik et al. [2021] Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, and Dani Lischinski. Styleclip: Text-driven manipulation of stylegan imagery. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2085–2094, 2021.
  • [30] prolific. Prolific. https://www.prolific.com/, 2024. Accessed: 2024-09-24.
  • Radford et al. [2021a] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning, 2021, pages 8748–8763. PMLR, 2021a.
  • Radford et al. [2021b] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning, pages 8748–8763, 2021b.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pages 10674–10685. IEEE, 2022.
  • Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 22500–22510, 2023.
  • Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Raphael Gontijo-Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David J. Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. In Advances in Neural Information Processing Systems, 2022.
  • Sharma et al. [2018] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2556–2565, 2018.
  • Shi et al. [2020] Jing Shi, Ning Xu, Trung Bui, Franck Dernoncourt, Zheng Wen, and Chenliang Xu. A benchmark and baseline for language-driven image editing. In Computer Vision - ACCV 2020 - 15th Asian Conference on Computer Vision, Kyoto, Japan, November 30 - December 4, 2020, Revised Selected Papers, Part VI, pages 636–651. Springer, 2020.
  • Shi et al. [2021] Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, and Chenliang Xu. Learning by planning: Language-guided global image editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13590–13599, 2021.
  • Su et al. [2022] Xuan Su, Jiaming Song, Chenlin Meng, and Stefano Ermon. Dual diffusion implicit bridges for image-to-image translation. arXiv preprint arXiv:2203.08382, 2022.
  • Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
  • Team et al. [2024] Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, et al. Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118, 2024.
  • Wang et al. [2023a] Kai Wang, Fei Yang, Shiqi Yang, Muhammad Atif Butt, and Joost van de Weijer. Dynamic prompt learning: Addressing cross-attention leakage for text-based image editing. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a.
  • Wang et al. [2023b] Qian Wang, Biao Zhang, Michael Birsak, and Peter Wonka. Mdp: A generalized framework for text-guided image editing by manipulating the diffusion path, 2023b.
  • Wei et al. [2023] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, and Wangmeng Zuo. Elite: Encoding visual concepts into textual embeddings for customized text-to-image generation. arXiv preprint arXiv:2302.13848, 2023.
  • Wu and la Torre [2023] Chen Henry Wu and Fernando De la Torre. A latent space of stochastic diffusion models for zero-shot image editing and guidance. In ICCV, 2023.
  • Wu et al. [2023] Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, and Shiyu Chang. Uncovering the disentanglement capability in text-to-image diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1900–1910, 2023.
  • Xu et al. [2023] Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, and Joyce Chai. Cyclenet: Rethinking cycle consistent in text‑guided diffusion for image manipulation. In Advances in Neural Information Processing Systems (NeurIPS), 2023.
  • Yang et al. [2023] Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, and Fang Wen. Paint by example: Exemplar-based image editing with diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18381–18391, 2023.
  • Zhang et al. [2023a] Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, and Yu Su. Magicbrush: A manually annotated dataset for instruction-guided image editing. In Advances in Neural Information Processing Systems, 2023a.
  • Zhang et al. [2023b] Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong, and Ran Xu. HIVE: harnessing human feedback for instructional visual editing. CoRR, abs/2303.09618, 2023b.
  • Kim et al. [2022] Gwanghyun Kim, Taesung Kwon, and Jong Chul Ye. Diffusionclip: Text-guided diffusion models for robust image manipulation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

7 Appendix

Table of Contents

\startcontents

[appendices] \printcontents[appendices]l2

7.1 Ethics Statement

局所的な画像編集技術の進歩は、デジタルメディアや仮想現実環境における創造的表現の向上とアクセシビリティの改善に大きな機会を提供している。しかしながら、これらの発展は同時に重要な倫理的課題をもたらしている。特に、ディープフェイクのような誤解を招くコンテンツの作成に悪用される可能性[20]や、画像編集業界の雇用に与える潜在的影響が懸念される。さらに、[19]でも指摘されているように、誤用を避けるためにはその倫理的使用について徹底的かつ慎重な議論が必要である。我々は、本手法が以前のデータセットに存在する一部のバイアスを軽減する可能性があると考えているが、CLIPのようなモデルに内在するバイアスの影響は依然として受けることになる。倫理的枠組みは、責任ある使用を奨励し、誤用を防ぐための明確なガイドラインを策定し、特にジャーナリズムのような繊細な文脈において公平性と透明性を促進することを優先すべきである。これらの懸念に効果的に対処することは、関連するリスクを最小限に抑えつつ、技術の肯定的な利点を増幅するために不可欠である。加えて、我々のユーザー調査は参加者のプライバシーを保護するために厳格な匿名性規則に従っている。

7.2 Runtime Analysis

我々の手法は、サイクル編集一貫性(CEC)と追加の損失関数を組み込むことでIP2Pの学習目的を修正している。しかしながら、これらの変更は全体的な実行時間に影響を与えない。同じアーキテクチャとモデル構造を維持しているため、推論時間は元のIP2Pフレームワークと同等である。したがって、我々のアプローチは処理時間やリソース消費の面で追加の複雑性やオーバーヘッドを導入しない。これにより、UIP2PはMGIE [9] やSmartEdit [16]のような推論時に大規模言語モデル(LLM)に依存する手法に比べ、実行時間とリソース消費の面で優位性がある。

さらに、セクション 5.4で示されているように、UIP2Pは正確な編集を達成するために必要な推論ステップ数が少ない。例えば、IP2Pは通常、より多くのステップ(例えば50から100ステップ)を使用するのに対し、UIP2Pはわずか5ステップで一貫性のある結果を生成できる。このステップ数の削減により、推論時間が短縮され、特にリアルタイムや大規模アプリケーションにおいて、品質を損なうことなく明確な効率性の利点を提供する。

7.3 Ablation Study on Loss Functions

我々は、アブレーション実験をsimsubscriptsim\mathcal{L}_{\text{sim}}caligraphic_L start_POSTSUBSCRIPT sim end_POSTSUBSCRIPTattnsubscriptattn\mathcal{L}_{\text{attn}}caligraphic_L start_POSTSUBSCRIPT attn end_POSTSUBSCRIPTreconsubscriptrecon\mathcal{L}_{\text{recon}}caligraphic_L start_POSTSUBSCRIPT recon end_POSTSUBSCRIPTを超えた追加コンポーネントだからである。コアとなる損失は、Cycle Edit Consistency (CEC)における意味的整合性と可逆性を確保するために不可欠であり、我々の手法の基礎を形成している。CLIPsubscriptCLIP\mathcal{L}_{\text{CLIP}}caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPTreconsubscriptrecon\mathcal{L}_{\text{recon}}caligraphic_L start_POSTSUBSCRIPT recon end_POSTSUBSCRIPTがなければ、モデルは発散のリスクを抱え、編集中に入力の構造と意味的一貫性の両方を保持する能力を失う可能性がある。

simsubscriptsim\mathcal{L}_{\text{sim}}caligraphic_L start_POSTSUBSCRIPT sim end_POSTSUBSCRIPTを追加することで、画像とテキストの埋め込みの整合性を促進し、モデルがより自由に編集を行うことを可能にし、複雑で多様な変換を行う能力を拡張する。一方、attnsubscriptattn\mathcal{L}_{\text{attn}}caligraphic_L start_POSTSUBSCRIPT attn end_POSTSUBSCRIPTは、編集中に関連領域に焦点を当てるモデルの能力を洗練させ、局所化を改善し、対象外の領域での意図しない変更を減少させる。

CLIPsubscriptCLIP\mathcal{L}_{\text{CLIP}}caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPTは、入力画像と編集された画像の間に適用され、編集指示との意味的整合性を確保する。再構成された画像は、すでにreconsubscriptrecon\mathcal{L}_{\text{recon}}caligraphic_L start_POSTSUBSCRIPT recon end_POSTSUBSCRIPTによって制約されており、これは入力との構造的および意味的一貫性を強制する。再構成された画像にCLIPsubscriptCLIP\mathcal{L}_{\text{CLIP}}caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPTを追加することは冗長であり、可逆性の目的を妨げる可能性がある。我々の設計では、可逆性への焦点を維持し、最適化目的の競合を防ぐために、再構成された画像にCLIPsubscriptCLIP\mathcal{L}_{\text{CLIP}}caligraphic_L start_POSTSUBSCRIPT CLIP end_POSTSUBSCRIPTを適用していない。

7.4 Discussion on Reduced DDIM Steps

この観察は、推論時のステップ数5.4節)で詳述されている経験的結果に基づいている。具体的には、我々は、CECが順方向と逆方向の編集間の強力な整合性を保証し、より少ないDDIMステップでも高品質な出力を生成できるようにしていると仮説を立てている。さらに、アルゴリズム1(4行目と8行目)に示されているように、我々の手法では、画像を復元するためにすべてのタイムステップで同じノイズ除去予測を使用しており、これが効率性を高めている。

対照的に、IP2Pは訓練中に画像空間で損失を最適化しないため、より少ないDDIMステップで同等の結果を達成する能力が制限されている。このDDIMステップの削減は、スケーラビリティの向上に寄与し、計算リソースが制約されることの多い実世界のシナリオにおいて、我々の手法をより適用可能にしている。

Refer to caption
図7:様々な編集指示に対する我々の手法とベースラインモデルの定性的比較。左から順に:入力画像、編集指示、InstructPix2Pix、MagicBrush、HIVE、MGIE、SmartEdit、および我々の手法の結果。我々のアプローチは、表情の変更、色の調整、オブジェクトの変換、創造的な編集など、多様なタスクにわたって、提供された指示との優れた忠実性と整合性を示している。

7.5 Additional Qualitative Results

我々のアプローチの能力をさらに実証するために、追加の定性的比較を 7に示す。これらの結果は、InstructPix2Pix、MagicBrush、HIVE、MGIE、SmartEditなど、複数のベースラインモデルに対する我々の手法の性能を、多様な編集指示にわたって示している。これらのタスクは、色の調整や表情の変更といった単純な編集から、オブジェクトの削除、スタイルの変更、複雑なシーン編集といったより困難な変換まで多岐にわたる。

この比較は、我々の手法が一貫して高い忠実度と提供された指示とのより良い整合性を達成していることを強調している。例えば、「顔を幸せにする」といった表情の修正を指示された場合、我々の手法はより自然で表現力豊かな結果を生成する。同様に、「色をより緑にする」といった色の調整においても、我々のアプローチはベースラインモデルの性能を上回る鮮やかで正確な編集を確実に行う。「夕日を火の嵐に変える」や「バチカンにする」といったより困難なシナリオでは、我々の手法は元の画像の構造的整合性を維持しながら、望ましい変換を実行する。さらに、「爪に青いグリッターを付ける」といった創造的な編集において、我々のモデルは卓越した精度と細部への注意を示している。

7.6 Details of Competitor Methods

我々の手法は、トレーニングと推論の両面で競合手法に対して大きな利点を提供する。入力画像、編集済み画像、指示のペアを必要とする教師あり手法とは異なり、我々のアプローチはそのようなデータセットの必要性を排除し、バイアスを減らし、スケーラビリティを向上させる。例えば、MagicBrushは人手でアノテーションされたデータセットでファインチューニングされ、HIVEは人間のアノテーターを用いたPrompt-to-Prompt編集を活用しており、労働集約的なプロセスへの依存性を導入している。さらに、MGIEとSmartEditは推論時にLLMに依存しており、これは計算オーバーヘッドを大幅に増加させる。これらの違いは、我々のアプローチの効率性と実用性を浮き彫りにしており、高価な人手によるアノテーションや推論時の追加の複雑さの必要性を回避している。 他の編集手法と同様に、我々のアプローチは異なるランダムシードに対して小さな変動を生成することができるが、一貫して指定された編集を適用し、手動選択の必要性を排除する。我々の知る限り、比較対象の手法(例えばMagicBrush、InstructPix2Pix)も手動選択を含んでいない。

InstructPix2Pix [3]

は、入力画像、指示、編集済み画像の三つ組みでトレーニングすることで、指示ベースの画像編集を行う拡散ベースのモデルである111https://github.com/timothybrooks/instruct-pix2pix。このモデルは、大規模言語モデル(LLM)とPrompt-to-Promptを組み合わせて生成された編集済み画像の合成データセットでファインチューニングされている[13]。このアプローチはペアのデータセットに依存しており、バイアスを導入し、汎化を制限する可能性がある。InstructPix2Pixは、その教師あり学習方法論により、我々の比較における主要なベースラインの1つとして機能する。

HIVE [51]

は、人間のフィードバックに基づいてInstructPix2Pixをファインチューニングする指示ベースの編集モデルである222https://github.com/salesforce/HIVE。具体的には、HIVEはどの編集済み画像が好まれるかについてのユーザーの選好から学習し、このフィードバックをモデルトレーニングに組み込む。このアプローチによりHIVEは人間の期待により適合することができるが、依然としてInstructPix2Pixの上に構築されており、ゼロからトレーニングを開始しない。これにより、UIP2Pのようなゼロから訓練される手法と比較して柔軟性が制限される。

MagicBrush [50]

は、実画像編集性能を向上させるために、人手でアノテーションされたデータセットでInstructPix2Pixの事前学習済み重みをファインチューニングする333https://github.com/OSU-NLP-Group/MagicBrush。このファインチューニングアプローチにより、MagicBrushは正解ラベルを持つ特定のタスクに対して非常に効果的になるが、UIP2Pのようなゼロから訓練される手法と比較して汎化性が制限される。さらに、MagicBrushの人手でアノテーションされたデータへの依存は、そのようなアノテーションの取得が高コストで労働集約的であるため、大きなスケーラビリティの課題をもたらす。この依存性により、大規模なアノテーションが実現不可能な可能性のあるより広範なデータセットには適していない。

MGIE [9]

は、画像編集のためのより正確な指示を生成するために大規模マルチモーダル言語モデルを導入する444https://ml-mgie.com/playground.html。InstructPix2Pixと同様に、MGIEはトレーニングのためにペアのデータセットを必要とするが、推論時に言語モデルを使用して指示の品質を向上させる。しかし、この推論時のLLMへの依存は計算オーバーヘッドを追加する。対照的に、UIP2Pは推論時にLLMを使用せずに動作し、柔軟性を維持しながらオーバーヘッドを削減する。

SmartEdit [16]

は、すでに指示ベースの画像編集タスク用に訓練されたモデルであるInstructDiffusionに基づいている555https://github.com/TencentARC/SmartEdit。テキストと画像のアラインメントを改善するために双方向相互作用モジュールを導入しているが、事前学習済みのInstructDiffusionへの依存により柔軟性が制限され、SmartEditはゼロからトレーニングを開始しない。さらに、SmartEditは推論時に大規模言語モデル(LLM)に依存しており、計算オーバーヘッドを増加させる。これにより、リアルタイムまたは大規模処理が必要なシナリオでは、SmartEditはUIP2Pよりも効率が低くなる。

評価時には、ベースライン手法の公開されている実装とデモページを使用する。各ベースラインは指示ベースの画像編集に対して異なるアプローチを提供し、これらを合わせて提案手法であるUIP2Pの性能、柔軟性、効率性を比較するための包括的な手法セットを提供する。

表4: 2つの異なる入力キャプションに対する4つの可能な編集の例。 我々のデータセット生成プロセスは、同じキャプションに対して複数の変換を示すことで、逆指示データセットの柔軟性を示している。
Input Caption Edit Instruction Edited Caption Reverse Instruction
A dog sitting on a couch change the dog’s color to brown A brown dog sitting on a couch change the dog’s color back to white
add a ball next to the dog A dog sitting on a couch with a ball remove the ball
remove the dog An empty couch add the dog back
move the dog to the floor A dog sitting on the floor move the dog back to the couch
A car parked on the street change the car color to red A red car parked on the street change the car color back to black
add a bicycle next to the car A car parked on the street with a bicycle remove the bicycle
remove the car An empty street add the car back
move the car to the garage A car parked in the garage move the car back to the street

7.7 More Examples from Reverse Instructions Dataset

我々の逆指示データセットの多様性を示すために、2つの異なる入力キャプションに対して複数のバリエーションの編集例を提供する。各キャプションには、色の変更、オブジェクトの追加、オブジェクトの削除、位置の調整など、4つの異なる編集が施されている。この多様性は、セクション 4.2で議論したように、モデルが幅広いタスクとシナリオにわたって一般化するのに役立つ。逆指示を生成するための大規模言語モデル(LLM)の使用は、我々のデータセットの柔軟性をさらに高めている。

これらの例は、 1の他の例と共に、我々のモデルが学習する編集タイプの多様性を示しており、異なる実画像データセット全体で幅広いタスクを実行できるようにしている。逆指示メカニズムは、編集が可逆であることを保証し、順方向と逆方向の変換の両方で一貫性と整合性を維持している。

7.8 Cycle Edit Consistency Example

我々は推論時のCECを視覚的な例で示す。順方向パスでは、モデルは指示(例えば「森の道を浜辺に変える」)に基づいて入力画像を変換する。逆方向パスでは、対応する逆指示(例えば「浜辺を森に戻す」)が適用され、元の画像が再構築される。これは、複雑な編集全体で一貫性と正確性を維持するモデルの能力を示しており、順方向と逆方向の変換の両方が整合的に一致することを保証している。オブジェクトの追加と削除などの追加例は、UIP2Pの多様な編集タスクにおける適応性をさらに強調している。 8は、我々の手法が元のコンテンツの完全性を維持しながら、正確で可逆的な編集を確保する方法を示している。

Refer to caption
図8: 順方向と逆方向の編集が順次適用される。

7.9 Dataset Filtering

我々はCLIP [31] をCC3M [37] およびCC12M [5] データセットの両方に適用し、キャプションと画像間の類似性を計算することで、テキストの説明が対応する画像の内容を正確に反映していることを確認する。InstructPix2Pix(IP2P) [3] で使用された方法論に従い、我々は類似度のしきい値を0.2に設定したCLIPベースのフィルタリング戦略を採用する。このしきい値により、十分な意味的整合性を持たない画像-キャプションペアが除外され、より高品質なテキスト-画像ペアを含むデータセットを選別することができる。フィルタリングプロセスには、CLIP ViT-L/14モデルを使用する。このモデルは、テキストと画像間の意味的類似性を捉えるための堅牢で確立されたフレームワークを提供する。

このフィルタリングプロセスを適用することで、関連性のある一貫したペアのみがデータセットに残り、トレーニングデータの品質が向上し、モデルが実世界の編集タスクにより適切に一般化できるようになる。結果として、フィルタリングされたCC3Mデータセットには250万の画像-キャプションペアが含まれ、フィルタリングされたCC12Mデータセットには850万のペアが含まれる。このデータセットの慎重な選別により、人間による注釈に頼ることなくトレーニングプロセスの信頼性が向上し、人間が注釈した正解データセットのコストと制限なしに、より広範な実画像データセットに対してスケーラブルになる [3, 50]

7.10 Additional Quantitative Analysis on MagicBrush Test

本節では、MagicBrushテストセットに関する完全な定量的分析を提示する。これには、LABEL:tab:mball-quantitativeに示すように、グローバルな説明ガイド型モデルと指示ガイド型モデルの両方からの結果が含まれる。我々の手法であるUIP2Pは、MagicBrushのような人間が注釈付けしたデータセットでファインチューニングされていないにもかかわらず、このタスクに特化してファインチューニングされたモデルと比較して、非常に競争力のある結果を達成している。特に、UIP2PはL1、L2、CLIP-Iなどの主要な指標において、最高または2番目に高いパフォーマンスを示し、いくつかのケースではファインチューニングされたモデルを上回っている。これは、UIP2Pの堅牢性と汎化能力を強調するものであり、実際のデータセットに対する特別なトレーニングを必要とせずに、複雑な編集を効果的に処理できることを示している。これらの結果は、UIP2Pが様々な状況下で高品質な編集を提供し、人間が注釈付けしたMagicBrushデータセットにおいてファインチューニングされたモデルに対して競争力のあるパフォーマンスを維持していることをさらに裏付けている。

表5: MagicBrush [50] テストセットにおける定量的比較。 マルチターン設定では、ターゲット画像が初期ソース画像から反復的に編集される。 最良の結果は太字で示されている。
Settings Methods L1\downarrow L2\downarrow CLIP-I\uparrow DINO\uparrow CLIP-T\uparrow
Single-turn Global Description-guided
Open-Edit [21] 0.1430 0.0431 0.8381 0.7632 0.2610
VQGAN-CLIP [7] 0.2200 0.0833 0.6751 0.4946 0.3879
SD-SDEdit [24] 0.1014 0.0278 0.8526 0.7726 0.2777
Text2LIVE [2] 0.0636 0.0169 0.9244 0.8807 0.2424
Null Text Inversion [25] 0.0749 0.0197 0.8827 0.8206 0.2737
Instruction-guided
HIVE [51] 0.1092 0.0341 0.8519 0.7500 0.2752
      w/ MagicBrush [50] 0.0658 0.0224 0.9189 0.8655 0.2812
InstructPix2Pix [3] 0.1122 0.0371 0.8524 0.7428 0.2764
      w/ MagicBrush [50] 0.0625 0.0203 0.9332 0.8987 0.2781
UIP2P w/ IP2P Dataset 0.0722 0.0193 0.9243 0.8876 0.2944
UIP2P w/ CC3M Dataset 0.0680 0.0183 0.9262 0.8924 0.2966
UIP2P w/ CC12M Dataset 0.0619 0.0174 0.9318 0.9039 0.2964
Multi-turn Global Description-guided
Open-Edit [21] 0.1655 0.0550 0.8038 0.6835 0.2527
VQGAN-CLIP [7] 0.2471 0.1025 0.6606 0.4592 0.3845
SD-SDEdit [24] 0.1616 0.0602 0.7933 0.6212 0.2694
Text2LIVE [2] 0.0989 0.0284 0.8795 0.7926 0.2716
Null Text Inversion [25] 0.1057 0.0335 0.8468 0.7529 0.2710
Instruction-guided
HIVE [51] 0.1521 0.0557 0.8004 0.6463 0.2673
      w/ MagicBrush [50] 0.0966 0.0365 0.8785 0.7891 0.2796
InstructPix2Pix [3] 0.1584 0.0598 0.7924 0.6177 0.2726
      w/ MagicBrush [50] 0.0964 0.0353 0.8924 0.8273 0.2754
UIP2P w/ IP2P Dataset 0.1104 0.0358 0.8779 0.8041 0.2892
UIP2P w/ CC3M Dataset 0.1040 0.0337 0.8816 0.8130 0.2909
UIP2P w/ CC12M Dataset 0.0976 0.0323 0.8857 0.8235 0.2901

7.11 User Study Setting

我々は、Prolificプラットフォーム[30]上で52名の匿名参加者を対象にユーザー調査を実施し、30の質問を提示した。各質問では、参加者に異なる手法で生成された6つの編集画像を、対応する入力画像と編集指示とともに提示した。参加者は、編集が指定された結果を達成する効果(Q1)と、指示の対象外の領域の詳細を保持する編集手法の能力(Q2)を評価する任務を与えられた。

例えば、 9に示すように、編集指示が顔を幸せにするである場合、参加者は6つの編集画像(a-f)のうちどれが指示を最もよく満たし、かつシーンの無関係な詳細の忠実性を維持しているかを判断するよう求められた。参加者の回答を集計することで、正確な編集と詳細の保持の両方に関して好まれる手法についての洞察を得ることができる。このフィードバックは、定量的分析を補完し、手法間の公平な比較を提供するとともに、より高度な画像編集技術の開発と改良に役立つ情報を提供する。

Refer to caption
図9: ユーザー調査のセットアップ。 入力画像が、編集指示「顔を幸せにする」に基づいて異なる手法で生成されたランダムに並べられた編集画像(a)-(f)とともに表示されている。参加者は、編集効果に最も合致する上位2つの手法と、指示と無関係な領域を最もよく保持している手法を選択するよう求められる。

7.12 Additional Implementation Details

7.12.1 Code Implementation Overview

我々のCECを用いたUIP2P実装は、再現性のために既存のフレームワークを基盤としている:

  • 基本フレームワーク: コードはInstructPix2Pix666https://github.com/timothybrooks/instruct-pix2pixに基づいており、これが指示ベースの画像編集の基礎を提供している。

  • 採用したCLIP損失: StyleGAN-NADA777https://github.com/rinongal/StyleGAN-nadaからCLIPベースの損失関数を採用し、CECに適合するよう修正を加え、我々の特定のタスクに対する画像とテキストの整合性を向上させた。

7.12.2 Algorithm Overview

本節では、指示ベースの画像編集に教師なし学習を導入するUIP2Pという提案手法について説明する。我々のアプローチの核心は、順方向と逆方向の指示を通じてサイクルさせた際に、編集が一貫性を持ち可逆的であることを保証するCycle Edit Consistency (CEC)である。

このアルゴリズムは、2つの主要なプロセスで構成される:

  • 順方向プロセス: 入力画像と順方向編集指示から始まり、まず画像にノイズが追加される。次にモデルがノイズを予測し、それを適用してノイズプロセスを逆転させ、編集された画像を復元する(アルゴリズム 1の2-4行目を参照)。

  • 逆方向プロセス: 順方向編集された画像と逆方向編集指示が与えられると、再びノイズが適用される。モデルは逆ノイズを予測し、それを用いて編集を元に戻し、元の画像を再構築する。これにより、逆方向編集が元の入力画像と一貫性を持つことが保証される(アルゴリズム 1の6-8行目を参照)。

CECは、元の入力画像、順方向編集された画像、再構築された画像の間で、それぞれの注意マップとキャプションとともに適用される(アルゴリズム 1の10行目を参照)。CECsubscript𝐶𝐸𝐶\mathcal{L}_{CEC}caligraphic_L start_POSTSUBSCRIPT italic_C italic_E italic_C end_POSTSUBSCRIPT関数は、逆伝播を通じてモデルの学習を導く(アルゴリズム 1の12-13行目を参照)。

アルゴリズム1 CECを用いた教師なし指示ベース画像編集(UIP2P)
1:画像 Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT (入力画像)、順方向編集指示 F𝐹Fitalic_F、逆方向編集指示 R𝑅Ritalic_R、ノイズレベル t𝑡titalic_t (順方向)、t^^𝑡\hat{t}over^ start_ARG italic_t end_ARG (逆方向)、モデル M𝑀Mitalic_M、損失関数 LCECsubscript𝐿𝐶𝐸𝐶L_{CEC}italic_L start_POSTSUBSCRIPT italic_C italic_E italic_C end_POSTSUBSCRIPT、ノイズ関数 N𝑁Nitalic_N、入力キャプション Tinputsubscript𝑇𝑖𝑛𝑝𝑢𝑡T_{input}italic_T start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT、編集キャプション Teditsubscript𝑇𝑒𝑑𝑖𝑡T_{edit}italic_T start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT
2:編集画像 Ieditsubscript𝐼𝑒𝑑𝑖𝑡I_{edit}italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT、再構築画像 Ireconsubscript𝐼𝑟𝑒𝑐𝑜𝑛I_{recon}italic_I start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPT
3:順方向プロセス:
4:ztN(Iinput,t)subscript𝑧𝑡𝑁subscript𝐼𝑖𝑛𝑝𝑢𝑡𝑡z_{t}\leftarrow N(I_{input},t)italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ← italic_N ( italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT , italic_t ) \triangleright 入力画像 Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT にノイズ t𝑡titalic_t を追加
5:ϵ^F,AfM(zt|Iinput,F)subscript^italic-ϵ𝐹subscript𝐴𝑓𝑀conditionalsubscript𝑧𝑡subscript𝐼𝑖𝑛𝑝𝑢𝑡𝐹\hat{\epsilon}_{F},A_{f}\leftarrow M(z_{t}|I_{input},F)over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_F end_POSTSUBSCRIPT , italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT ← italic_M ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT | italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT , italic_F ) \triangleright モデル M𝑀Mitalic_M が順方向ノイズ ϵ^Fsubscript^italic-ϵ𝐹\hat{\epsilon}_{F}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_F end_POSTSUBSCRIPT を予測し、注意マップ Afsubscript𝐴𝑓A_{f}italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT を抽出
6:IeditApply(ϵ^F,zt,t)subscript𝐼𝑒𝑑𝑖𝑡Applysubscript^italic-ϵ𝐹subscript𝑧𝑡𝑡I_{edit}\leftarrow\text{Apply}(\hat{\epsilon}_{F},z_{t},t)italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT ← Apply ( over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_F end_POSTSUBSCRIPT , italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) \triangleright 予測されたノイズ ϵ^Fsubscript^italic-ϵ𝐹\hat{\epsilon}_{F}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_F end_POSTSUBSCRIPT を適用して ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT を得るプロセスを逆転させ、Ieditsubscript𝐼𝑒𝑑𝑖𝑡I_{edit}italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT を復元
7:逆方向プロセス:
8:zt^N(Iedit,t^)subscript𝑧^𝑡𝑁subscript𝐼𝑒𝑑𝑖𝑡^𝑡z_{\hat{t}}\leftarrow N(I_{edit},\hat{t})italic_z start_POSTSUBSCRIPT over^ start_ARG italic_t end_ARG end_POSTSUBSCRIPT ← italic_N ( italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT , over^ start_ARG italic_t end_ARG ) \triangleright 順方向編集画像 Ieditsubscript𝐼𝑒𝑑𝑖𝑡I_{edit}italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT にノイズ t^^𝑡\hat{t}over^ start_ARG italic_t end_ARG を追加
9:ϵ^R,ArM(zt^|Iedit,R)subscript^italic-ϵ𝑅subscript𝐴𝑟𝑀conditionalsubscript𝑧^𝑡subscript𝐼𝑒𝑑𝑖𝑡𝑅\hat{\epsilon}_{R},A_{r}\leftarrow M(z_{\hat{t}}|I_{edit},R)over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT , italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ← italic_M ( italic_z start_POSTSUBSCRIPT over^ start_ARG italic_t end_ARG end_POSTSUBSCRIPT | italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT , italic_R ) \triangleright モデル M𝑀Mitalic_M が逆方向ノイズ ϵ^Rsubscript^italic-ϵ𝑅\hat{\epsilon}_{R}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT を予測し、注意マップ Arsubscript𝐴𝑟A_{r}italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT を抽出
10:IreconApply(ϵ^R,zt^,t^)subscript𝐼𝑟𝑒𝑐𝑜𝑛Applysubscript^italic-ϵ𝑅subscript𝑧^𝑡^𝑡I_{recon}\leftarrow\text{Apply}(\hat{\epsilon}_{R},z_{\hat{t}},\hat{t})italic_I start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPT ← Apply ( over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT , italic_z start_POSTSUBSCRIPT over^ start_ARG italic_t end_ARG end_POSTSUBSCRIPT , over^ start_ARG italic_t end_ARG ) \triangleright 予測されたノイズ ϵ^Rsubscript^italic-ϵ𝑅\hat{\epsilon}_{R}over^ start_ARG italic_ϵ end_ARG start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT を適用して zt^subscript𝑧^𝑡z_{\hat{t}}italic_z start_POSTSUBSCRIPT over^ start_ARG italic_t end_ARG end_POSTSUBSCRIPT を得るプロセスを逆転させ、Ireconsubscript𝐼𝑟𝑒𝑐𝑜𝑛I_{recon}italic_I start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPT を復元
11:サイクル編集一貫性損失:
12:LCECL(Iinput,Iedit,Irecon,Af,Ar,Tinput,Tedit)subscript𝐿𝐶𝐸𝐶𝐿subscript𝐼𝑖𝑛𝑝𝑢𝑡subscript𝐼𝑒𝑑𝑖𝑡subscript𝐼𝑟𝑒𝑐𝑜𝑛subscript𝐴𝑓subscript𝐴𝑟subscript𝑇𝑖𝑛𝑝𝑢𝑡subscript𝑇𝑒𝑑𝑖𝑡L_{CEC}\leftarrow L(I_{input},I_{edit},I_{recon},A_{f},A_{r},T_{input},T_{edit})italic_L start_POSTSUBSCRIPT italic_C italic_E italic_C end_POSTSUBSCRIPT ← italic_L ( italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT , italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT , italic_I start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPT , italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT , italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT , italic_T start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT , italic_T start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT ) \triangleright Iinputsubscript𝐼𝑖𝑛𝑝𝑢𝑡I_{input}italic_I start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPTIeditsubscript𝐼𝑒𝑑𝑖𝑡I_{edit}italic_I start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPTIreconsubscript𝐼𝑟𝑒𝑐𝑜𝑛I_{recon}italic_I start_POSTSUBSCRIPT italic_r italic_e italic_c italic_o italic_n end_POSTSUBSCRIPT、注意マップ Afsubscript𝐴𝑓A_{f}italic_A start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPTArsubscript𝐴𝑟A_{r}italic_A start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT、入力テキスト Tinputsubscript𝑇𝑖𝑛𝑝𝑢𝑡T_{input}italic_T start_POSTSUBSCRIPT italic_i italic_n italic_p italic_u italic_t end_POSTSUBSCRIPT、編集テキスト Teditsubscript𝑇𝑒𝑑𝑖𝑡T_{edit}italic_T start_POSTSUBSCRIPT italic_e italic_d italic_i italic_t end_POSTSUBSCRIPT を用いてCEC損失を計算
13:モデルの更新:
14:損失 LCECsubscript𝐿𝐶𝐸𝐶L_{CEC}italic_L start_POSTSUBSCRIPT italic_C italic_E italic_C end_POSTSUBSCRIPT を逆伝播し、モデル M𝑀Mitalic_M を更新
15:収束するまで繰り返す