UIP2P: Unsupervised Instruction-based Image Editing
via Cycle Edit Consistency
Abstract
我々は、教師なしの指示ベース画像編集モデルを提案する。このモデルは、訓練時に正解となる編集済み画像を必要としない。既存の教師あり手法は、入力画像、編集済み画像、編集指示からなる三つ組のデータセットに依存している。これらは既存の編集手法や人間による注釈付けによって生成されるため、バイアスが導入され、汎化能力が制限される。我々の手法は、サイクル編集一貫性(Cycle Edit Consistency, CEC)と呼ばれる新しい編集メカニズムを導入することでこれらの課題に対処する。CECは、1回の訓練ステップで順方向と逆方向の編集を適用し、画像空間と注意空間での一貫性を強制する。これにより、正解となる編集済み画像の必要性を回避し、実際の画像-キャプションペアまたは画像-キャプション-編集の三つ組からなるデータセットでの訓練を初めて可能にする。我々は、この教師なし技術が、より広範囲の編集において高い忠実度と精度で優れた性能を発揮することを実証的に示す。既存の三つ組データセットの必要性を排除し、教師あり手法に関連するバイアスを軽減し、CECを提案することで、本稿は指示ベース画像編集のスケーリングを阻害する要因を取り除く上で重要な進歩を表している。
1 Introduction
拡散モデル(DM)は最近、主にテキストから画像生成のブレークスルーを通じて、高品質で多様な画像の生成において大きな進歩を遂げた [15, 36, 34, 33]。これにより、パーソナライズされた画像生成 [35, 45, 10]、コンテキストを考慮したインペインティング [23, 26, 49]、テキストプロンプトに基づく画像編集 [1, 13, 24, 18, 6]などのタスクに対する様々な技術が開発された。テキスト指示に基づく画像編集 [3] は、DMが堅牢な編集ツールとしての多様性を示している。
しかしながら、既存の手法は主に教師あり学習に依存しており、入力画像、編集済み画像、編集指示を含む大規模なトリプレットデータセットを必要とする[3, 50, 51, 9]。これらのデータセットは、しばしばPrompt-to-Promptのような編集手法[13]や人手によるアノテーションを用いて生成される。前者の解決策はデータセットの規模拡大を可能にするが、残念ながら、(a)属性が絡み合った編集や(b)シーンが絡み合った編集といったバイアスを導入し、画像の意図しない部分に影響を与えたり、(c)シーン全体に大きな変化をもたらしたりする(図 2参照)。一方、人手によるアノテーションデータは貴重ではあるが、手動アノテーションに伴う高いコストと労力のため、大規模な訓練には現実的ではない。人手によるアノテーションや生成された正解編集画像への依存は、達成可能な編集の多様性を制限し、幅広いユーザー指示を理解し実行できるモデルの開発を妨げている。
我々は、UIP2Pを提示する。これは教示ベースの画像編集のための教師なしモデルであり、Cycle Edit Consistency (CEC)、すなわち、順方向および逆方向の編集を適用することで得られる一貫性を導入することで、生成されたものであれ人間が注釈を付けたものであれ、トリプレットのデータセットへの依存を排除する。サイクル編集の間、明示的な監視の必要性を克服しつつ編集の一貫性を確保するために、我々はCLIP埋め込み空間におけるテキストと画像の整列を活用する[32]。さらに、我々は画像空間と注意空間の両方で明示的に一貫性を強制することで、UIP2Pモデルがユーザーの指示を正確に解釈し局所化し、編集が一貫性を持ち意図した変更を反映することを保証する。CECにより、UIP2Pは元のコンテンツの完全性を効果的に維持しながら正確な修正を行うことができ、さらに編集の信頼性を高めている。我々のアプローチは、既存のアプローチの限界と人間によるラベル付けの高コストのために以前は不可能だった、大規模な実画像データセットでのトレーニングを可能にする。結果として、本稿のアプローチは、従来の手法と比較して、教示ベースの画像編集の範囲と拡張性を大幅に拡大する。 我々の主要な貢献は以下の通りである:
-
•
我々は、教示ベースの画像編集のための教師なし技術であるUIP2Pを導入する。これはトレーニング中に正解の編集済み画像を必要とせず、現在の教師あり手法に代わるより拡張性の高い選択肢を提供する。
-
•
我々は、Cycle Edit Consistency (CEC)を提案する。これは、順方向および逆方向の編集を通じてサイクルされた際に一貫した編集を保証し、画像空間と注意空間の両方で一貫性を維持する新しいアプローチである。これにより、ユーザーの指示を正確に反映した精密で高忠実度の編集が可能になる。
-
•
我々のアプローチは、様々な実画像データセットにわたって拡張性と多様性を示し、既存のデータセットに依存することなく幅広い編集を可能にし、教示ベースの画像編集の範囲を大幅に拡大する。
2 Related Work
CLIP-Based Image Manipulation.
Text-based Image Editing with Diffusion Models.
画像編集の一般的なアプローチの1つは、事前学習された拡散モデルを使用し、まず入力画像を潜在空間に逆変換し、その後テキストプロンプトを通じて編集を適用することである[25, 13, 44, 24, 6, 17, 27, 43, 47]。例えば、DirectInversion[17]は逆変換後にPrompt-to-Prompt[13]を使用して画像を編集するが、逆変換のステップにより元の画像から重要な詳細が失われる可能性がある。さらに、DiffusionCLIP[52]、CycleDiffusion[46]、CycleNet[48]、DualDiffusion[40]などの手法は、画像編集を改善する方法としてドメイン間変換を探求している。しかし、これらの手法は2つの固定されたドメイン間の変換に焦点を当てているため、オブジェクトの挿入や削除などの複雑な編集を扱うことが困難である。対照的に、我々はドメイン変換に限定されない汎用的な画像編集アプローチに焦点を当てており、より広範な編集を柔軟に扱うことができる。
画像編集のもう一つのアプローチは、入力画像、編集指示、編集後の画像の3つ組からなるデータセットでモデルを訓練する方法である[3, 50, 51]。これらの手法は、入力画像を直接条件として扱うため、逆変換のステップを必要としない。 InstructDiffusion[12]はInstructPix2Pixを基に、より広範なビジョンタスクを扱えるようにしたが、より高度な推論には困難を伴う。MGIE[9]は、大規模なマルチモーダル言語モデルを使用してより正確な指示を生成することでこれを改善している。SmartEdit[16]はさらに一歩進んで、双方向相互作用モジュールを導入し、画像とテキストの特徴をより良く接続することで、困難な編集シナリオでのパフォーマンスを向上させている。
画像編集における大きな課題は、大規模で高品質な3つ組データセットの必要性である。InstructPix2Pix[3]は、GPT-3[4]とPrompt-to-Prompt[13]を使用して大規模なデータセットを生成することでこの問題に部分的に対処している。しかし、これはデータ不足を緩和する一方で、Prompt-to-Promptからのモデルバイアスなどの問題を引き起こす。MagicBrush[50]は人間によってアノテーションされたデータセットを用いて品質の面に取り組んでいるが、このアプローチは小規模であり、より広範な使用には実用性が限られている。
我々のアプローチは、画像とテキストを整列させるためにCLIPの意味空間を活用し、より堅牢なソリューションを提供する。Cycle Edit Consistency (CEC)の導入により、データセットの制限とモデルバイアスの両方に対処し、順方向と逆方向の編集間の一貫性を確保している。我々のアプローチは、複雑な指示に対するスケーラビリティと精度を向上させ、3つ組データセットへの依存を排除し、実画像の任意の画像-キャプションデータセットに適用可能である。さらに、CECはInstructPix2Pixのトレーニングフェーズのみを変更するため、任意のモデル拡張とシームレスに統合できる。
3 Background
3.1 Latent Diffusion Models (LDMs)
Stable Diffusion(SD)は、テキストガイド付き画像生成のために設計された著名な潜在拡散モデル(LDM)である[34]。LDMは、通常、事前学習された変分オートエンコーダのボトルネックから導出される圧縮された潜在空間で動作し、計算効率を向上させる。ガウスノイズから始まり、モデルはテキスト条件付けによって導かれる反復的な逆ノイズ化プロセスを通じて、徐々に画像を構築する。このプロセスは、U-Netベースのアーキテクチャによって駆動され[8]、自己注意機構と交差注意機構を利用する。自己注意機構は進化する画像表現を洗練させ、交差注意機構はテキストガイダンスを統合する。
交差注意機構は、LDMにおける画像生成の方向付けに重要である。各交差注意層は、クエリ()、キー()、値()の3つの主要コンポーネントで構成される。クエリは中間画像特徴から線形変換()を通じて生成され、キーと値はテキスト条件付けから線形変換(および)を用いて抽出される。式 1で定式化される注意機構は、テキスト記述に基づいて進化する画像のどの領域を修正すべきかを示す注意マップを計算する。我々は、これらの注意マップを損失関数で利用して、望ましい編集を局所化し、局所的で一貫性のある画像編集を可能にする。
(1) |
3.2 InstructPix2Pix (IP2P)
我々の手法は、テキスト条件付き画像変換のためのLDMベースのフレームワークであるInstructPix2Pix (IP2P) [3]に基づいている。Stable Diffusionと同様に、IP2PはU-Netアーキテクチャを採用している。IP2Pの条件付きフレームワークにより、入力画像()とテキスト指示()の両方を同時に利用して画像修正を導くことができる。Classifier-free guidance (CFG) [14]が使用され、係数(と)が編集中のテキストと元の画像の影響を制御する。学習されたネットワークから予測されたノイズベクトル()が線形に結合され、最終的なスコア推定が生成される。
InstructPix2Pixは、入力画像、編集指示、編集された画像の三つ組からなるデータセットで訓練される。このデータセットは、実際のキャプションに基づいてSDによって生成された合成画像、LLMによって生成された編集指示、そしてPrompt-to-Prompt [13]を使用して得られた編集済み画像で構成されている。 合成データセットへの依存は、本稿で取り組むべきいくつかの制限をもたらす。第一に、IP2Pのようなモデルは合成データのみで訓練されるため、実世界の画像データセットでの訓練時の適用可能性が制限される。第二に、その性能は本質的にPrompt-to-Prompt手法によって生成される画像の品質に制約され、図 2で示されるように、編集プロセスにバイアスをもたらす。
4 Method
InstructPix2Pix [3]のような既存の研究とは異なり、指示に基づく編集のために入力画像と編集済み画像のペアデータセットに依存するのではなく、我々は実画像と対応する編集指示のみを必要とする教師なし技術を利用し、正解となる編集済み画像の必要性を排除している。端的に言えば、画像と順方向の編集指示(例えば、「空をピンク色に変える」)が与えられると、我々は編集済み画像を生成する。その後、編集済み画像に逆方向の指示(例えば、「空を青色に戻す」)を適用し、元の入力を復元することを目指す。順方向-逆方向の編集の過程で、我々は提案するCycle Edit Consistency (CEC)を適用し、編集が可逆であり、画像と注意空間の両方で一貫性を維持することを保証する。このアプローチにより、合成データや編集済みのペアデータセットの制限なしに、様々な実画像データセットにわたって指示に基づく画像編集を拡張することが可能となる。以下のセクションでは、我々のアプローチを詳細に説明し、フレームワークの主要コンポーネント(セクション 4.1)、一貫性を強制するために使用される損失関数、および訓練データ生成手順(セクション 4.2)について述べる。
4.1 Framework
4.1.1 UIP2P
我々の手法の核心は、サイクル編集一貫性(Cycle Edit Consistency, CEC)の概念である。これは、画像に適用された編集が、対応する逆指示を通じて元の入力に戻せることを保証するものである。 我々のフレームワークであるUIP2Pは、CECを強制し、編集プロセス中の意味的および視覚的一貫性を維持するために設計された4つの主要コンポーネントを導入している。これは、拡散ステップ間で予測を効果的に再利用するメカニズムを活用して編集プロセスを強化するものである(概要は図 3に示されている):
-
1.
テキストと画像の方向一貫性:我々はCLIP埋め込み[31]を活用して、テキスト指示と画像修正の間の意味的関係を整合させる。CLIPの埋め込み空間内で操作することで、我々のモデルは入力画像と編集された画像の関係が、それぞれのキャプションの関係に対応することを保証する。この整合性は、サイクル編集一貫性(CEC)を強制するために重要であり、入力画像の構造を保持しながら望ましい編集が適用されることを保証する。
-
2.
注意マップの一貫性:編集プロセス全体を通じて一貫性を維持するために、順方向と逆方向の編集中に生成される注意マップが整合するよう強制する。これにより、モデルが初期編集とその逆転の間で画像の同じ領域に一貫して焦点を当てることを保証する。注意マップの一貫性は、訓練目的を正則化し、学習された編集が適切に局在化されることを保証する。
-
3.
再構成の一貫性:CECを強制する中心として、モデルは逆指示を適用した後に元の入力画像を再構成しなければならない。これにより、モデルが確実に編集を元に戻せることを保証する。我々は、再構成された画像と元の入力との間のピクセル単位および意味的な差異を最小化することでこれを達成し、適用された編集とその逆転の間の一貫性を確保する。
-
4.
異なる拡散ステップでの統一予測:我々は異なる拡散ステップ(順方向に、逆方向に)をサンプリングし、それぞれ1ステップのとを独立して予測し、最終的に順方向(F)でステップ、逆方向(R)でステップにわたって適用して画像を再構成する。したがって、訓練中は効果的に1つのノイズ除去ステップで予測を行う。ステップ間で同じ予測を再利用することで計算コストを削減する。
これらのコンポーネント—テキストと画像の方向一貫性、注意マップの一貫性、再構成の一貫性、および異なる拡散ステップでの統一予測—を組み合わせることで、我々のフレームワークはCECを強制し、多様な実画像データセットにわたって訓練することを可能にする。 この合成データセットを超えて一般化する能力は、実世界の指示ベースの画像編集シナリオにおける我々の手法の汎用性を強調するものである。
4.1.2 Loss Functions
サイクル編集一貫性(CEC)を強制し、編集および再構成プロセス中の視覚的および意味的一貫性を確保するために、我々は各訓練反復に追加の損失項を導入する。我々のアプローチでは、訓練サンプルは入力画像、テキストでの編集指示、およびそれに対応する逆指示、さらに画像の入力キャプションと編集されたキャプションで構成される。これらのサンプルがどのように生成されるかについては、後のセクションでさらに詳細を提供する。
CLIP Direction Loss.
この損失は、画像に適用される変換がCLIPの意味空間内でテキスト指示と整合することを保証する[11]。入力画像()、編集された画像()、入力キャプション()、および編集されたキャプション()のCLIP埋め込みが与えられた場合、損失は以下のように定義される:
(2) |
この損失は、画像空間における変化の方向をテキスト空間で記述された変換の方向と整合させ、修正が編集の意図した意味を反映することを保証する。これにより、モデルは画像空間での変換を対応するテキスト修正と整合させる。しかし、空間的一貫性を確保することも同様に重要であり、これは注意マップ一貫性損失で対処する。
Attention Map Consistency Loss.
順方向と逆方向の編集の両方で画像の同じ領域が編集されることを保証するために、我々は注意マップ一貫性損失を定義する。とを、順方向および逆方向の編集中のU-netモデルの番目の層からのクロスアテンションマップとする。損失は以下のように定義される:
(3) |
この損失は、編集と逆転の両段階で空間的一貫性を確保し、CECの重要な要件である。これにより、編集を逆転させる際に注意が同じ領域に集中することが保証される。
CLIP Similarity Loss.
この損失は、編集された画像が提供されたテキスト指示と意味的に整合したままであることを促進する。これは、編集された画像()と編集されたキャプション()のCLIP埋め込み間のコサイン類似度として計算される:
(4) |
この損失は、生成された画像が指示内の望ましい編集と整合することを保証し、順方向および逆方向のプロセス間の意味的一貫性を保持する—これはCECの本質的な側面である。
Reconstruction Loss.
逆編集後に元の画像が回復されることを保証するために、我々は再構成損失を採用する。この損失は、ピクセル単位の損失とCLIPベースの意味的損失の2つのコンポーネントで構成される。総再構成損失は以下のように定義される:
(5) |
この損失は、モデルが編集を忠実に逆転させ、逆指示が適用されたときに元の画像に戻ることができることを保証し、入力画像と再構成された画像の間の差異を最小化することでCECを強制する。
Input Caption | Edit Instruction | Edited Caption | Reverse Instruction | |
IP2P | A man wearing a denim jacket | make the jacket a rain coat | A man wearing a rain coat | make the coat a denim jacket |
A sofa in the living room | add pillows | A sofa in the living room with pillows | remove the pillows | |
CCXM | Person on the cover of a magazine | make the person a cat | Cat on the cover of the magazine | make the cat a person |
A tourist rests against a concrete wall | give him a backpack | A tourist with a backpack rests against a concrete wall | remove his backpack | |
4.1.3 Total Loss
モデルの訓練に使用される総損失関数は、個々の損失の重み付け組み合わせであり、再帰的ではなく単一ステップのノイズ予測に適用される:
(6) |
ここで、、、、およびは各損失の相対的な重みを制御するハイパーパラメータである。
4.2 Training Data
画像と編集指示を含むデータセットでCEC訓練を可能にするため[3]、我々はGEMMA2 [42]やGEMINI [41]などの大規模言語モデル(LLM)を活用して、逆編集指示を自動生成している。これらのLLMは、最小限のコストと労力で逆指示を取得するための効率的かつスケーラブルなソリューションを提供する[3]。 我々はGEMINI Proを使用して、入力キャプション、編集指示、対応する編集済みキャプションに基づいてIP2Pデータセットに逆指示を追加している。モデルのパフォーマンスを向上させるため、このプロセスでは少数ショットプロンプティングを採用しており、手動でペアにしたデータセットを必要とせずに逆指示を生成することができ、スケーラビリティを大幅に向上させている。LLMによって生成された逆指示は、編集された画像を元の形に戻すことを目的としている(表 1のIP2Pセクションを参照)。 逆指示を追加したデータセット(表 1のIP2Pセクションを参照)を使用して、我々はGEMMA2 [42]を微調整し、入力キャプションに基づいて編集指示、編集済みキャプション、および逆指示を生成できるようにしている。この微調整されたモデルを使用することで、CC3MやCC12Mなどの画像-キャプションペアのデータセット[37, 5]での訓練が可能となり、順方向および逆方向の編集と対応する編集済みキャプションを生成している(表 1のCCXMセクションを参照)。
5 Experiments
5.1 Experimental Setup
データセットの生成。 我々の手法を訓練するために、セクション 4.2で詳述したように、順方向と逆方向の指示がペアになったデータセットを生成する。初期実験では、InstructPix2Pixデータセット[3]を使用する。これは生成された画像-キャプションのペアと編集指示を提供している。さらに、我々の実験を実画像データセットに拡張する。実画像データセットにはCC3M[37]とCC12M[5]が含まれ、各画像-キャプションのペアに対して8つの可能な編集を生成する。これにより編集タスクの多様性が増し、モデルが様々な変換に触れることで、異なるタイプの編集や実世界のシナリオに対する一般化能力が向上する。
ベースライン。 我々は、いくつかのモデルと比較することで我々の手法を評価する。主要なベースラインはInstructPix2Pix[3]であり、これは訓練時に正解の編集済み画像に依存する教師あり手法である。我々の教師なしアプローチの利点を示すために、IP2Pと我々のモデルの両方を同じデータセットで訓練およびテストするが、我々の手法は訓練時に正解の編集済み画像を使用しない。 また、我々の手法をMagicBrush[50]、HIVE[51]、MGIE[9]、SmartEdit[16]などの他の指示ベースの編集モデルとも比較する。これらの追加比較により、我々の教師なしモデルが、正解の編集済み画像を生成するための既存の編集手法や人手によるアノテーションデータを必要とせずに、多様で複雑な編集をどれほど効果的に処理できるかを評価することができる。
実装の詳細。 我々の手法であるUIP2Pは、SD-v1.5モデル[34]をファインチューニングし、教師ありデータセットでの事前訓練は行わない。IP2Pのアーキテクチャは維持しつつ、我々のアプローチでは異なる訓練目的を用い、主にCycle Edit Consistency (CEC)の強制に焦点を当てる。具体的には、SD-v1.5に統合されたCLIP ViT-L/14モデルを使用して損失を計算する。順方向には、逆方向にはの拡散ステップ(0-1000の間でサンプリング、IP2P訓練で提案されたもの)にわたって単一のノイズ予測を使用することで、我々のモデルはIP2Pに対して計算オーバーヘッドを削減し(セクション 5.4を参照)、順方向と逆方向の編集間の一貫性を維持する。この予測の再利用により、IP2Pよりも少ない推論ステップで効率的かつ正確な編集が可能となり、セクション 5.4で経験的に示されるように、一般化と性能の両方が向上する。UIP2Pは、AdamWオプティマイザー[22]を使用し、バッチサイズ768で11K回の反復にわたって訓練される。基本学習率は5e-05に設定される。すべての実験はPyTorch[28]で実装され、16台のNVIDIA H100 GPUで実行される。損失の重みは、、、およびに設定される。の検証損失に基づいて最良の構成を選択する。
5.2 Qualitative Results
我々はUIP2Pを、InstructPix2Pix [3]、MagicBrush [50]、HIVE [51]、MGIE [9]、SmartEdit [16]を含む最先端の手法と、様々なデータセット [3, 50, 38, 39]で比較する。タスクには色の変更、オブジェクトの削除、構造的変更が含まれる。UIP2Pは一貫して高品質な編集を生成し、視覚的一貫性を維持しながら正確に変換を適用する。例えば、「鳥を黄色に変える」というタスクでは、UIP2Pは鳥の形状を保持しつつ、より自然な色の変更を提供する。「熱気球を削除する」や「帽子の色を青に変える」などのタスクでも同様の改善が見られる。これらの結果は、UIP2Pが多様な編集を処理する能力を示しており、しばしば他の手法と同等かそれ以上の性能を発揮している。図 4を参照されたい。
5.3 Quantitative Results
5.3.1 User Study
Models | (Q1) | (Q2) |
---|---|---|
IP2P | 8% | 12% |
MagicBrush | 17% | 18% |
HIVE | 14% | 13% |
MGIE | 20% | 19% |
SmartEdit | 19% | 18% |
UIP2P | 22% | 20% |
我々は、Prolificプラットフォーム[30]で52人の参加者を対象に、IP2P、MagicBrush、HIVE、MGIE、SmartEdit、UIP2Pの6つの手法を評価するユーザースタディを実施した。評価には、様々なデータセット[3, 50, 38, 39]からランダムにサンプリングされた15の画像編集指示を用いた。各指示に対して、参加者はSmartEdit[16]で提案されているように、最良の2つの手法を選択した。選択基準は、(Q1)編集が指示と位置特定にどの程度合致しているか、(Q2)編集が意図した領域にどの程度正確に適用されているかである。表は各質問に対して各手法が上位パフォーマーとして選ばれた割合をまとめている。UIP2Pが最も高い選好スコアを達成し、MGIEとSmartEditがそれに続いている。しかし、これらの手法とは異なり、我々のアプローチは推論時に遅延のペナルティを導入せず、精度と効率性の両方を提供している。
Settings | Methods | L1 | L2 | CLIP-I | DINO | CLIP-T |
---|---|---|---|---|---|---|
Single-turn | HIVE [51] | 0.1092 | 0.0341 | 0.8519 | 0.7500 | 0.2752 |
InstructPix2Pix [3] | 0.1122 | 0.0371 | 0.8524 | 0.7428 | 0.2764 | |
UIP2P w/ IP2P Dataset | 0.0722 | 0.0193 | 0.9243 | 0.8876 | 0.2944 | |
UIP2P w/ CC3M Dataset | 0.0680 | 0.0183 | 0.9262 | 0.8924 | 0.2966 | |
UIP2P w/ CC12M Dataset | 0.0619 | 0.0174 | 0.9318 | 0.9039 | 0.2964 | |
Multi-turn | HIVE [51] | 0.1521 | 0.0557 | 0.8004 | 0.6463 | 0.2673 |
InstructPix2Pix [3] | 0.1584 | 0.0598 | 0.7924 | 0.6177 | 0.2726 | |
UIP2P w/ IP2P Dataset | 0.1104 | 0.0358 | 0.8779 | 0.8041 | 0.2892 | |
UIP2P w/ CC3M Dataset | 0.1040 | 0.0337 | 0.8816 | 0.8130 | 0.2909 | |
UIP2P w/ CC12M Dataset | 0.0976 | 0.0323 | 0.8857 | 0.8235 | 0.2901 |
5.3.2 IP2P Test Dataset
我々は、5Kの画像-指示ペアを含むIP2Pテスト分割で我々の手法を評価した。[3]に従い、視覚的忠実性にはCLIP画像類似度を、指示との整合性評価にはCLIPテキスト-画像類似度を使用した。両指標でより高いスコアが良好なパフォーマンス(右上隅)を示し、画像の詳細を保持(画像類似度)しつつ、効果的に編集を適用(方向類似度)していることを意味する。プロットに示されているように、UIP2Pは両指標においてIP2Pを上回っている。これらの実験では、テキストスケールは固定され、画像スケールはからまで変化させている。
5.3.3 MagicBrush Test Dataset
MagicBrushテスト分割には、535のセッション(反復編集のためのソース画像)と1053のターン(個別の編集ステップ)が含まれている。ピクセル精度にはL1およびL2ノルムを、画像品質にはコサイン類似度を用いたCLIP-IおよびDINO埋め込みを、局所的なテキスト記述との整合性確保にはCLIP-Tを使用している。 LABEL:tab:mb-quantitativeに示されているように、UIP2Pは単一ターンおよびマルチターンの両設定で最高のパフォーマンスを示している。HIVEは編集された画像に対する人間のフィードバックを利用してユーザーの好みを理解し、学習された報酬に基づいてIP2Pをファインチューニングすることで、モデルをより人間の期待に近づけていることに注意することが重要である。 LABEL:tab:mb-quantitativeはまた、トレーニングデータセットのサンプル数を増やし、実際の画像でトレーニングすることが、合成データセットであるIP2Pデータセットでトレーニングするよりも優れたパフォーマンスを提供することを示している。
5.4 Ablation Study
損失関数。 我々は、MagicBrushテストセット(単一ターン)でゼロショット評価を実施し、異なる損失関数の有効性を評価した。とを含む基本構成から始め、同じ指標で中程度の性能を観察した。損失を追加することで、モデルはより自由に編集を行うことができるようになる。これは、基本構成がそれなしでは入力画像に似た出力を生成する傾向があるためである。最後に、は、モデルの関連領域への焦点を強化し、順方向と逆方向のプロセス間で関心領域の一貫性を確保する。
Loss | L1 | L2 | CLIP-I | DINO | CLIP-T |
---|---|---|---|---|---|
Base | 0.117 | 0.032 | 0.878 | 0.806 | 0.309 |
+ | 0.089 | 0.024 | 0.906 | 0.872 | 0.301 |
+ | 0.062 | 0.017 | 0.932 | 0.904 | 0.296 |
ステップ数。 我々は、推論時の拡散ステップ数を変化させる効果を分析した。ステップ数を減らすと計算時間は短縮されるが、画像品質に影響を与える可能性がある。我々の実験では、UIP2Pはわずか5ステップでも高品質の編集を維持し、精度を犠牲にすることなく大幅な高速化を実現することが示された。対照的に、IP2Pは同様の結果を得るためにより多くのステップを必要とする。図 6に示すように、UIP2Pは特に少ない推論ステップ数において、品質と効率の両面でIP2Pを一貫して上回っている。
6 Conclusion
本稿では、UIP2Pという教師なし指示ベースの画像編集フレームワークを提示する。これは、Cycle Edit Consistency (CEC)を活用して、正解の編集済み画像に依存せずに可逆的かつ一貫性のある編集を保証するものである。我々のアプローチの主要な構成要素には、テキストと画像の方向一貫性、注意マップの一貫性、再構成の一貫性、および異なる拡散ステップでの統一予測が含まれ、これらが画像空間と注意空間の両方で一貫性を強制する。実画像データセットでの実験を通じて、UIP2Pが元の画像の構造を維持しながら、高品質で精密な編集を提供することを示す。既存の手法と競争力のある性能を発揮し、手動でアノテーションされたデータセットを必要とせずに多様な編集タスクに効率的にスケールする我々のアプローチの有効性を実証している。
References
- Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022, pages 18187–18197. IEEE, 2022.
- Bar-Tal et al. [2022] Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, and Tali Dekel. Text2live: Text-driven layered image and video editing. In Computer Vision - ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XV, pages 707–723. Springer, 2022.
- Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A. Efros. Instructpix2pix: Learning to follow image editing instructions. In CVPR, 2023.
- Brown et al. [2020] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020.
- Changpinyo et al. [2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3558–3568, 2021.
- Couairon et al. [2023] Guillaume Couairon, Jakob Verbeek, Holger Schwenk, and Matthieu Cord. Diffedit: Diffusion-based semantic image editing with mask guidance. In The Eleventh International Conference on Learning Representations, 2023.
- Crowson et al. [2022] Katherine Crowson, Stella Biderman, Daniel Kornis, Dashiell Stander, Eric Hallahan, Louis Castricato, and Edward Raff. VQGAN-CLIP: open domain image generation and editing with natural language guidance. In Computer Vision - ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXXVII, pages 88–105. Springer, 2022.
- Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.
- Fu et al. [2023] Tsu-Jui Fu, Wenze Hu, Xianzhi Du, William Yang Wang, Yinfei Yang, and Zhe Gan. Guiding instruction-based image editing via multimodal large language models. arXiv preprint arXiv:2309.17102, 2023.
- Gal et al. [2022a] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion, 2022a.
- Gal et al. [2022b] Rinon Gal, Or Patashnik, Haggai Maron, Amit H. Bermano, Gal Chechik, and Daniel Cohen-Or. Stylegan-nada: Clip-guided domain adaptation of image generators. ACM Trans. Graph., 41(4):141:1–141:13, 2022b.
- Geng et al. [2023] Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, et al. Instructdiffusion: A generalist modeling interface for vision tasks. arXiv preprint arXiv:2309.03895, 2023.
- Hertz et al. [2022] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. CoRR, abs/2208.01626, 2022.
- Ho and Salimans [2021] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
- Huang et al. [2024] Yuzhou Huang, Liangbin Xie, Xintao Wang, Ziyang Yuan, Xiaodong Cun, Yixiao Ge, Jiantao Zhou, Chao Dong, Rui Huang, Ruimao Zhang, et al. Smartedit: Exploring complex instruction-based image editing with multimodal large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8362–8371, 2024.
- Ju et al. [2023] Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, and Qiang Xu. Direct inversion: Boosting diffusion-based editing with 3 lines of code. arXiv preprint arXiv:2310.01506, 2023.
- Kawar et al. [2022] Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, and Michal Irani. Imagic: Text-based real image editing with diffusion models. CoRR, abs/2210.09276, 2022.
- Kenthapadi et al. [2023] Krishnaram Kenthapadi, Himabindu Lakkaraju, and Nazneen Rajani. Generative ai meets responsible ai: Practical challenges and opportunities. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 5805–5806, 2023.
- Korshunov and Marcel [2018] Pavel Korshunov and Sébastien Marcel. Deepfakes: a new threat to face recognition? assessment and detection. arXiv preprint arXiv:1812.08685, 2018.
- Liu et al. [2020] Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang Wang, and Hongsheng Li. Open-edit: Open-domain image manipulation with open-vocabulary instructions. In Computer Vision - ECCV 2020 - 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XI, pages 89–106. Springer, 2020.
- Loshchilov [2017] I Loshchilov. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
- Lugmayr et al. [2022] Andreas Lugmayr, Martin Danelljan, Andrés Romero, Fisher Yu, Radu Timofte, and Luc Van Gool. Repaint: Inpainting using denoising diffusion probabilistic models. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, June 18-24, 2022, pages 11451–11461. IEEE, 2022.
- Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In International Conference on Learning Representations, 2022.
- Mokady et al. [2022] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. CoRR, abs/2211.09794, 2022.
- Nichol et al. [2022] Alexander Quinn Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2022, pages 16784–16804. PMLR, 2022.
- Parmar et al. [2023] Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu. Zero-shot image-to-image translation. In ACM SIGGRAPH 2023 Conference Proceedings, pages 1–11, 2023.
- Paszke et al. [2019] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32, 2019.
- Patashnik et al. [2021] Or Patashnik, Zongze Wu, Eli Shechtman, Daniel Cohen-Or, and Dani Lischinski. Styleclip: Text-driven manipulation of stylegan imagery. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2085–2094, 2021.
- [30] prolific. Prolific. https://www.prolific.com/, 2024. Accessed: 2024-09-24.
- Radford et al. [2021a] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning, 2021, pages 8748–8763. PMLR, 2021a.
- Radford et al. [2021b] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning, pages 8748–8763, 2021b.
- Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pages 10674–10685. IEEE, 2022.
- Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 22500–22510, 2023.
- Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Raphael Gontijo-Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David J. Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. In Advances in Neural Information Processing Systems, 2022.
- Sharma et al. [2018] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2556–2565, 2018.
- Shi et al. [2020] Jing Shi, Ning Xu, Trung Bui, Franck Dernoncourt, Zheng Wen, and Chenliang Xu. A benchmark and baseline for language-driven image editing. In Computer Vision - ACCV 2020 - 15th Asian Conference on Computer Vision, Kyoto, Japan, November 30 - December 4, 2020, Revised Selected Papers, Part VI, pages 636–651. Springer, 2020.
- Shi et al. [2021] Jing Shi, Ning Xu, Yihang Xu, Trung Bui, Franck Dernoncourt, and Chenliang Xu. Learning by planning: Language-guided global image editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13590–13599, 2021.
- Su et al. [2022] Xuan Su, Jiaming Song, Chenlin Meng, and Stefano Ermon. Dual diffusion implicit bridges for image-to-image translation. arXiv preprint arXiv:2203.08382, 2022.
- Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
- Team et al. [2024] Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, et al. Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118, 2024.
- Wang et al. [2023a] Kai Wang, Fei Yang, Shiqi Yang, Muhammad Atif Butt, and Joost van de Weijer. Dynamic prompt learning: Addressing cross-attention leakage for text-based image editing. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a.
- Wang et al. [2023b] Qian Wang, Biao Zhang, Michael Birsak, and Peter Wonka. Mdp: A generalized framework for text-guided image editing by manipulating the diffusion path, 2023b.
- Wei et al. [2023] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, and Wangmeng Zuo. Elite: Encoding visual concepts into textual embeddings for customized text-to-image generation. arXiv preprint arXiv:2302.13848, 2023.
- Wu and la Torre [2023] Chen Henry Wu and Fernando De la Torre. A latent space of stochastic diffusion models for zero-shot image editing and guidance. In ICCV, 2023.
- Wu et al. [2023] Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, and Shiyu Chang. Uncovering the disentanglement capability in text-to-image diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1900–1910, 2023.
- Xu et al. [2023] Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, and Joyce Chai. Cyclenet: Rethinking cycle consistent in text‑guided diffusion for image manipulation. In Advances in Neural Information Processing Systems (NeurIPS), 2023.
- Yang et al. [2023] Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, and Fang Wen. Paint by example: Exemplar-based image editing with diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18381–18391, 2023.
- Zhang et al. [2023a] Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, and Yu Su. Magicbrush: A manually annotated dataset for instruction-guided image editing. In Advances in Neural Information Processing Systems, 2023a.
- Zhang et al. [2023b] Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong, and Ran Xu. HIVE: harnessing human feedback for instructional visual editing. CoRR, abs/2303.09618, 2023b.
- Kim et al. [2022] Gwanghyun Kim, Taesung Kwon, and Jong Chul Ye. Diffusionclip: Text-guided diffusion models for robust image manipulation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
7 Appendix
Table of Contents
[appendices] \printcontents[appendices]l2
7.1 Ethics Statement
局所的な画像編集技術の進歩は、デジタルメディアや仮想現実環境における創造的表現の向上とアクセシビリティの改善に大きな機会を提供している。しかしながら、これらの発展は同時に重要な倫理的課題をもたらしている。特に、ディープフェイクのような誤解を招くコンテンツの作成に悪用される可能性[20]や、画像編集業界の雇用に与える潜在的影響が懸念される。さらに、[19]でも指摘されているように、誤用を避けるためにはその倫理的使用について徹底的かつ慎重な議論が必要である。我々は、本手法が以前のデータセットに存在する一部のバイアスを軽減する可能性があると考えているが、CLIPのようなモデルに内在するバイアスの影響は依然として受けることになる。倫理的枠組みは、責任ある使用を奨励し、誤用を防ぐための明確なガイドラインを策定し、特にジャーナリズムのような繊細な文脈において公平性と透明性を促進することを優先すべきである。これらの懸念に効果的に対処することは、関連するリスクを最小限に抑えつつ、技術の肯定的な利点を増幅するために不可欠である。加えて、我々のユーザー調査は参加者のプライバシーを保護するために厳格な匿名性規則に従っている。
7.2 Runtime Analysis
我々の手法は、サイクル編集一貫性(CEC)と追加の損失関数を組み込むことでIP2Pの学習目的を修正している。しかしながら、これらの変更は全体的な実行時間に影響を与えない。同じアーキテクチャとモデル構造を維持しているため、推論時間は元のIP2Pフレームワークと同等である。したがって、我々のアプローチは処理時間やリソース消費の面で追加の複雑性やオーバーヘッドを導入しない。これにより、UIP2PはMGIE [9] やSmartEdit [16]のような推論時に大規模言語モデル(LLM)に依存する手法に比べ、実行時間とリソース消費の面で優位性がある。
さらに、セクション 5.4で示されているように、UIP2Pは正確な編集を達成するために必要な推論ステップ数が少ない。例えば、IP2Pは通常、より多くのステップ(例えば、50から100ステップ)を使用するのに対し、UIP2Pはわずか5ステップで一貫性のある結果を生成できる。このステップ数の削減により、推論時間が短縮され、特にリアルタイムや大規模アプリケーションにおいて、品質を損なうことなく明確な効率性の利点を提供する。
7.3 Ablation Study on Loss Functions
我々は、アブレーション実験をととを超えた追加コンポーネントだからである。コアとなる損失は、Cycle Edit Consistency (CEC)における意味的整合性と可逆性を確保するために不可欠であり、我々の手法の基礎を形成している。とがなければ、モデルは発散のリスクを抱え、編集中に入力の構造と意味的一貫性の両方を保持する能力を失う可能性がある。
を追加することで、画像とテキストの埋め込みの整合性を促進し、モデルがより自由に編集を行うことを可能にし、複雑で多様な変換を行う能力を拡張する。一方、は、編集中に関連領域に焦点を当てるモデルの能力を洗練させ、局所化を改善し、対象外の領域での意図しない変更を減少させる。
は、入力画像と編集された画像の間に適用され、編集指示との意味的整合性を確保する。再構成された画像は、すでにによって制約されており、これは入力との構造的および意味的一貫性を強制する。再構成された画像にを追加することは冗長であり、可逆性の目的を妨げる可能性がある。我々の設計では、可逆性への焦点を維持し、最適化目的の競合を防ぐために、再構成された画像にを適用していない。
7.4 Discussion on Reduced DDIM Steps
この観察は、推論時のステップ数(5.4節)で詳述されている経験的結果に基づいている。具体的には、我々は、CECが順方向と逆方向の編集間の強力な整合性を保証し、より少ないDDIMステップでも高品質な出力を生成できるようにしていると仮説を立てている。さらに、アルゴリズム1(4行目と8行目)に示されているように、我々の手法では、画像を復元するためにすべてのタイムステップで同じノイズ除去予測を使用しており、これが効率性を高めている。
対照的に、IP2Pは訓練中に画像空間で損失を最適化しないため、より少ないDDIMステップで同等の結果を達成する能力が制限されている。このDDIMステップの削減は、スケーラビリティの向上に寄与し、計算リソースが制約されることの多い実世界のシナリオにおいて、我々の手法をより適用可能にしている。
7.5 Additional Qualitative Results
我々のアプローチの能力をさらに実証するために、追加の定性的比較を図 7に示す。これらの結果は、InstructPix2Pix、MagicBrush、HIVE、MGIE、SmartEditなど、複数のベースラインモデルに対する我々の手法の性能を、多様な編集指示にわたって示している。これらのタスクは、色の調整や表情の変更といった単純な編集から、オブジェクトの削除、スタイルの変更、複雑なシーン編集といったより困難な変換まで多岐にわたる。
この比較は、我々の手法が一貫して高い忠実度と提供された指示とのより良い整合性を達成していることを強調している。例えば、「顔を幸せにする」といった表情の修正を指示された場合、我々の手法はより自然で表現力豊かな結果を生成する。同様に、「色をより緑にする」といった色の調整においても、我々のアプローチはベースラインモデルの性能を上回る鮮やかで正確な編集を確実に行う。「夕日を火の嵐に変える」や「バチカンにする」といったより困難なシナリオでは、我々の手法は元の画像の構造的整合性を維持しながら、望ましい変換を実行する。さらに、「爪に青いグリッターを付ける」といった創造的な編集において、我々のモデルは卓越した精度と細部への注意を示している。
7.6 Details of Competitor Methods
我々の手法は、トレーニングと推論の両面で競合手法に対して大きな利点を提供する。入力画像、編集済み画像、指示のペアを必要とする教師あり手法とは異なり、我々のアプローチはそのようなデータセットの必要性を排除し、バイアスを減らし、スケーラビリティを向上させる。例えば、MagicBrushは人手でアノテーションされたデータセットでファインチューニングされ、HIVEは人間のアノテーターを用いたPrompt-to-Prompt編集を活用しており、労働集約的なプロセスへの依存性を導入している。さらに、MGIEとSmartEditは推論時にLLMに依存しており、これは計算オーバーヘッドを大幅に増加させる。これらの違いは、我々のアプローチの効率性と実用性を浮き彫りにしており、高価な人手によるアノテーションや推論時の追加の複雑さの必要性を回避している。 他の編集手法と同様に、我々のアプローチは異なるランダムシードに対して小さな変動を生成することができるが、一貫して指定された編集を適用し、手動選択の必要性を排除する。我々の知る限り、比較対象の手法(例えば、MagicBrush、InstructPix2Pix)も手動選択を含んでいない。
InstructPix2Pix [3]
は、入力画像、指示、編集済み画像の三つ組みでトレーニングすることで、指示ベースの画像編集を行う拡散ベースのモデルである111https://github.com/timothybrooks/instruct-pix2pix。このモデルは、大規模言語モデル(LLM)とPrompt-to-Promptを組み合わせて生成された編集済み画像の合成データセットでファインチューニングされている[13]。このアプローチはペアのデータセットに依存しており、バイアスを導入し、汎化を制限する可能性がある。InstructPix2Pixは、その教師あり学習方法論により、我々の比較における主要なベースラインの1つとして機能する。
HIVE [51]
は、人間のフィードバックに基づいてInstructPix2Pixをファインチューニングする指示ベースの編集モデルである222https://github.com/salesforce/HIVE。具体的には、HIVEはどの編集済み画像が好まれるかについてのユーザーの選好から学習し、このフィードバックをモデルトレーニングに組み込む。このアプローチによりHIVEは人間の期待により適合することができるが、依然としてInstructPix2Pixの上に構築されており、ゼロからトレーニングを開始しない。これにより、UIP2Pのようなゼロから訓練される手法と比較して柔軟性が制限される。
MagicBrush [50]
は、実画像編集性能を向上させるために、人手でアノテーションされたデータセットでInstructPix2Pixの事前学習済み重みをファインチューニングする333https://github.com/OSU-NLP-Group/MagicBrush。このファインチューニングアプローチにより、MagicBrushは正解ラベルを持つ特定のタスクに対して非常に効果的になるが、UIP2Pのようなゼロから訓練される手法と比較して汎化性が制限される。さらに、MagicBrushの人手でアノテーションされたデータへの依存は、そのようなアノテーションの取得が高コストで労働集約的であるため、大きなスケーラビリティの課題をもたらす。この依存性により、大規模なアノテーションが実現不可能な可能性のあるより広範なデータセットには適していない。
MGIE [9]
は、画像編集のためのより正確な指示を生成するために大規模マルチモーダル言語モデルを導入する444https://ml-mgie.com/playground.html。InstructPix2Pixと同様に、MGIEはトレーニングのためにペアのデータセットを必要とするが、推論時に言語モデルを使用して指示の品質を向上させる。しかし、この推論時のLLMへの依存は計算オーバーヘッドを追加する。対照的に、UIP2Pは推論時にLLMを使用せずに動作し、柔軟性を維持しながらオーバーヘッドを削減する。
SmartEdit [16]
は、すでに指示ベースの画像編集タスク用に訓練されたモデルであるInstructDiffusionに基づいている555https://github.com/TencentARC/SmartEdit。テキストと画像のアラインメントを改善するために双方向相互作用モジュールを導入しているが、事前学習済みのInstructDiffusionへの依存により柔軟性が制限され、SmartEditはゼロからトレーニングを開始しない。さらに、SmartEditは推論時に大規模言語モデル(LLM)に依存しており、計算オーバーヘッドを増加させる。これにより、リアルタイムまたは大規模処理が必要なシナリオでは、SmartEditはUIP2Pよりも効率が低くなる。
評価時には、ベースライン手法の公開されている実装とデモページを使用する。各ベースラインは指示ベースの画像編集に対して異なるアプローチを提供し、これらを合わせて提案手法であるUIP2Pの性能、柔軟性、効率性を比較するための包括的な手法セットを提供する。
Input Caption | Edit Instruction | Edited Caption | Reverse Instruction |
---|---|---|---|
A dog sitting on a couch | change the dog’s color to brown | A brown dog sitting on a couch | change the dog’s color back to white |
add a ball next to the dog | A dog sitting on a couch with a ball | remove the ball | |
remove the dog | An empty couch | add the dog back | |
move the dog to the floor | A dog sitting on the floor | move the dog back to the couch | |
A car parked on the street | change the car color to red | A red car parked on the street | change the car color back to black |
add a bicycle next to the car | A car parked on the street with a bicycle | remove the bicycle | |
remove the car | An empty street | add the car back | |
move the car to the garage | A car parked in the garage | move the car back to the street |
7.7 More Examples from Reverse Instructions Dataset
我々の逆指示データセットの多様性を示すために、2つの異なる入力キャプションに対して複数のバリエーションの編集例を提供する。各キャプションには、色の変更、オブジェクトの追加、オブジェクトの削除、位置の調整など、4つの異なる編集が施されている。この多様性は、セクション 4.2で議論したように、モデルが幅広いタスクとシナリオにわたって一般化するのに役立つ。逆指示を生成するための大規模言語モデル(LLM)の使用は、我々のデータセットの柔軟性をさらに高めている。
これらの例は、表 1の他の例と共に、我々のモデルが学習する編集タイプの多様性を示しており、異なる実画像データセット全体で幅広いタスクを実行できるようにしている。逆指示メカニズムは、編集が可逆であることを保証し、順方向と逆方向の変換の両方で一貫性と整合性を維持している。
7.8 Cycle Edit Consistency Example
我々は推論時のCECを視覚的な例で示す。順方向パスでは、モデルは指示(例えば、「森の道を浜辺に変える」)に基づいて入力画像を変換する。逆方向パスでは、対応する逆指示(例えば、「浜辺を森に戻す」)が適用され、元の画像が再構築される。これは、複雑な編集全体で一貫性と正確性を維持するモデルの能力を示しており、順方向と逆方向の変換の両方が整合的に一致することを保証している。オブジェクトの追加と削除などの追加例は、UIP2Pの多様な編集タスクにおける適応性をさらに強調している。図 8は、我々の手法が元のコンテンツの完全性を維持しながら、正確で可逆的な編集を確保する方法を示している。
7.9 Dataset Filtering
我々はCLIP [31] をCC3M [37] およびCC12M [5] データセットの両方に適用し、キャプションと画像間の類似性を計算することで、テキストの説明が対応する画像の内容を正確に反映していることを確認する。InstructPix2Pix(IP2P) [3] で使用された方法論に従い、我々は類似度のしきい値を0.2に設定したCLIPベースのフィルタリング戦略を採用する。このしきい値により、十分な意味的整合性を持たない画像-キャプションペアが除外され、より高品質なテキスト-画像ペアを含むデータセットを選別することができる。フィルタリングプロセスには、CLIP ViT-L/14モデルを使用する。このモデルは、テキストと画像間の意味的類似性を捉えるための堅牢で確立されたフレームワークを提供する。
7.10 Additional Quantitative Analysis on MagicBrush Test
本節では、MagicBrushテストセットに関する完全な定量的分析を提示する。これには、LABEL:tab:mball-quantitativeに示すように、グローバルな説明ガイド型モデルと指示ガイド型モデルの両方からの結果が含まれる。我々の手法であるUIP2Pは、MagicBrushのような人間が注釈付けしたデータセットでファインチューニングされていないにもかかわらず、このタスクに特化してファインチューニングされたモデルと比較して、非常に競争力のある結果を達成している。特に、UIP2PはL1、L2、CLIP-Iなどの主要な指標において、最高または2番目に高いパフォーマンスを示し、いくつかのケースではファインチューニングされたモデルを上回っている。これは、UIP2Pの堅牢性と汎化能力を強調するものであり、実際のデータセットに対する特別なトレーニングを必要とせずに、複雑な編集を効果的に処理できることを示している。これらの結果は、UIP2Pが様々な状況下で高品質な編集を提供し、人間が注釈付けしたMagicBrushデータセットにおいてファインチューニングされたモデルに対して競争力のあるパフォーマンスを維持していることをさらに裏付けている。
Settings | Methods | L1 | L2 | CLIP-I | DINO | CLIP-T |
---|---|---|---|---|---|---|
Single-turn | Global Description-guided | |||||
Open-Edit [21] | 0.1430 | 0.0431 | 0.8381 | 0.7632 | 0.2610 | |
VQGAN-CLIP [7] | 0.2200 | 0.0833 | 0.6751 | 0.4946 | 0.3879 | |
SD-SDEdit [24] | 0.1014 | 0.0278 | 0.8526 | 0.7726 | 0.2777 | |
Text2LIVE [2] | 0.0636 | 0.0169 | 0.9244 | 0.8807 | 0.2424 | |
Null Text Inversion [25] | 0.0749 | 0.0197 | 0.8827 | 0.8206 | 0.2737 | |
Instruction-guided | ||||||
HIVE [51] | 0.1092 | 0.0341 | 0.8519 | 0.7500 | 0.2752 | |
w/ MagicBrush [50] | 0.0658 | 0.0224 | 0.9189 | 0.8655 | 0.2812 | |
InstructPix2Pix [3] | 0.1122 | 0.0371 | 0.8524 | 0.7428 | 0.2764 | |
w/ MagicBrush [50] | 0.0625 | 0.0203 | 0.9332 | 0.8987 | 0.2781 | |
UIP2P w/ IP2P Dataset | 0.0722 | 0.0193 | 0.9243 | 0.8876 | 0.2944 | |
UIP2P w/ CC3M Dataset | 0.0680 | 0.0183 | 0.9262 | 0.8924 | 0.2966 | |
UIP2P w/ CC12M Dataset | 0.0619 | 0.0174 | 0.9318 | 0.9039 | 0.2964 | |
Multi-turn | Global Description-guided | |||||
Open-Edit [21] | 0.1655 | 0.0550 | 0.8038 | 0.6835 | 0.2527 | |
VQGAN-CLIP [7] | 0.2471 | 0.1025 | 0.6606 | 0.4592 | 0.3845 | |
SD-SDEdit [24] | 0.1616 | 0.0602 | 0.7933 | 0.6212 | 0.2694 | |
Text2LIVE [2] | 0.0989 | 0.0284 | 0.8795 | 0.7926 | 0.2716 | |
Null Text Inversion [25] | 0.1057 | 0.0335 | 0.8468 | 0.7529 | 0.2710 | |
Instruction-guided | ||||||
HIVE [51] | 0.1521 | 0.0557 | 0.8004 | 0.6463 | 0.2673 | |
w/ MagicBrush [50] | 0.0966 | 0.0365 | 0.8785 | 0.7891 | 0.2796 | |
InstructPix2Pix [3] | 0.1584 | 0.0598 | 0.7924 | 0.6177 | 0.2726 | |
w/ MagicBrush [50] | 0.0964 | 0.0353 | 0.8924 | 0.8273 | 0.2754 | |
UIP2P w/ IP2P Dataset | 0.1104 | 0.0358 | 0.8779 | 0.8041 | 0.2892 | |
UIP2P w/ CC3M Dataset | 0.1040 | 0.0337 | 0.8816 | 0.8130 | 0.2909 | |
UIP2P w/ CC12M Dataset | 0.0976 | 0.0323 | 0.8857 | 0.8235 | 0.2901 |
7.11 User Study Setting
我々は、Prolificプラットフォーム[30]上で52名の匿名参加者を対象にユーザー調査を実施し、30の質問を提示した。各質問では、参加者に異なる手法で生成された6つの編集画像を、対応する入力画像と編集指示とともに提示した。参加者は、編集が指定された結果を達成する効果(Q1)と、指示の対象外の領域の詳細を保持する編集手法の能力(Q2)を評価する任務を与えられた。
例えば、図 9に示すように、編集指示が顔を幸せにするである場合、参加者は6つの編集画像(a-f)のうちどれが指示を最もよく満たし、かつシーンの無関係な詳細の忠実性を維持しているかを判断するよう求められた。参加者の回答を集計することで、正確な編集と詳細の保持の両方に関して好まれる手法についての洞察を得ることができる。このフィードバックは、定量的分析を補完し、手法間の公平な比較を提供するとともに、より高度な画像編集技術の開発と改良に役立つ情報を提供する。
7.12 Additional Implementation Details
7.12.1 Code Implementation Overview
我々のCECを用いたUIP2P実装は、再現性のために既存のフレームワークを基盤としている:
-
•
基本フレームワーク: コードはInstructPix2Pix666https://github.com/timothybrooks/instruct-pix2pixに基づいており、これが指示ベースの画像編集の基礎を提供している。
-
•
採用したCLIP損失: StyleGAN-NADA777https://github.com/rinongal/StyleGAN-nadaからCLIPベースの損失関数を採用し、CECに適合するよう修正を加え、我々の特定のタスクに対する画像とテキストの整合性を向上させた。
7.12.2 Algorithm Overview
本節では、指示ベースの画像編集に教師なし学習を導入するUIP2Pという提案手法について説明する。我々のアプローチの核心は、順方向と逆方向の指示を通じてサイクルさせた際に、編集が一貫性を持ち可逆的であることを保証するCycle Edit Consistency (CEC)である。
このアルゴリズムは、2つの主要なプロセスで構成される: