Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
Abstract
†† 連絡先: Sungroh Yoon ([email protected])被写体駆動型テキスト画像生成は、被写体の視覚的特徴とテキストプロンプトの意味内容の両方を正確に捉えることで、望ましい文脈内で新しい被写体の画像を生成することを目的としている。 従来の手法は、被写体の整合性を図るために時間と資源を要するファインチューニングに依存しているが、最近のゼロショットアプローチは即時的な画像プロンプティングを活用しており、しばしば被写体の整合性を犠牲にしている。 本稿では、二連画生成における大規模テキスト画像モデルの創発的特性を活用することで、正確な被写体整合性を持つインペインティングタスクとして再解釈する新しいゼロショットアプローチである「Diptych Prompting」を提案する。 Diptych Promptingは、左パネルに参照画像を配置した不完全な二連画を構成し、右パネルにテキスト条件付きインペインティングを実行する。 さらに、参照画像の背景を除去することで不要なコンテンツの漏洩を防ぎ、インペインティング中にパネル間の注意重みを強化することで生成された被写体の細部を改善する。 実験結果は、我々のアプローチがゼロショット画像プロンプティング手法を大幅に上回り、ユーザーに視覚的に好まれる画像を生成することを確認している。 さらに、我々の手法は被写体駆動型生成だけでなく、様式化された画像生成や被写体駆動型画像編集もサポートしており、多様な画像生成アプリケーションにわたる汎用性を示している。
1 Introduction
生成モデルの最近の進歩により、テキストから画像を生成する(TTI)モデル [36, 33, 3, 8, 6, 40, 2, 9] は大幅に改善され、テキストプロンプトに基づいて写実的な画像を生成することが可能になった。 画像の生成だけでなく、これらのモデルはテキストガイドによる編集 [12, 28, 16, 48, 11]、テキストガイドによるスタイル転送 [13, 38, 41]、被写体駆動型テキストから画像生成 [39, 20, 10, 50, 22, 47, 30, 46, 26, 45, 31] など、様々なテキストベースの画像タスクをサポートしている。 特に、被写体駆動型テキストから画像生成は、テキストプロンプトと参照画像に基づいて、様々な文脈において特定の被写体の画像を合成することを目的としており、被写体とテキストの両方の整合性を達成することを目指している。
被写体駆動型テキスト画像生成に関する初期の研究 [10, 39, 20, 45] では、対象となる被写体を含む少数の画像でファインチューニングを行うことで、モデルが新しい被写体を合成することを可能にしている。 これらの手法は最適化を通じて強力な被写体の一致を実現しているが、新しい被写体ごとに数百回の反復的な最適化ステップが必要となるため、時間とリソースを多く消費する。 代替案として、ゼロショットアプローチ [50, 22, 47, 30, 46, 26, 31] が登場した。これらは追加のファインチューニングを必要とせず、代わりに特殊な画像エンコーダーを通じた画像プロンプティングを利用する。 これらの手法は参照画像から画像特徴を抽出し、テキスト特徴と共にTTIモデルに統合する。 エンコーダーの単一の順伝播で即座に被写体駆動型テキスト画像生成を実現する一方で、これらのエンコーダーベースの画像プロンプティングフレームワークは、特に細かな詳細の捕捉において、不十分な被写体の一致に悩まされている。
近年、NLP分野のモデルが大規模化し、顕著な能力を示すようになるにつれ [4, 1]、大規模なTTIモデル [8, 21] も同様に登場している。 特に注目すべきは、最近リリースされたFLUXモデル [21] である。このモデルは非常に複雑で長文のテキストに対しても、卓越したテキスト理解力と、その理解を効果的に画像に変換する能力を示している。 FLUXの様々な能力の中で、我々は高品質な二連画各パネルに相互に関連した画像を含む二枚組の芸術作品を生成する能力に注目する。 図 1 (a)に示されているように、FLUXの高度なテキスト理解と高解像度画像生成により、同じオブジェクトの並列画像を生成することが可能である。各画像は、各パネルのプロンプトで指定された異なる文脈を反映している。
FLUXの二連画生成能力に触発され、我々は「二連画プロンプティング」という、ゼロショットかつ被写体主導のテキストから画像生成のための新規なインペインティングベースのフレームワークを提案する。 本アプローチでは、タスクを二連画インペインティングプロセスとして再解釈する:左パネルには視覚的手がかりとして被写体の参照画像を含み、右パネルは所望のコンテキストを含む二連画を記述するテキストプロンプトに基づいてインペインティングにより生成される。 テキスト条件付き二連画インペインティングを用いることで、二連画プロンプティングは右パネルの生成画像を参照被写体とテキストプロンプトの両方に整合させる。 我々はこのプロセスを、コンテンツの漏洩を防ぎ被写体のみに焦点を当てるために参照画像から背景を除去し、さらに細部の保存を確実にするためにパネル間の注意重みを強化することで改善する。 これら2つの要素により、二連画プロンプティングはより一貫性があり高品質な被写体主導のテキストから画像生成を実現する。
様々な実験を通じて、二連画プロンプティングは既存のエンコーダベースの画像プロンプティング手法を上回る性能を示し、被写体とテキストの両方をより効果的に捉え、人間の評価者に好まれる結果を生成する。 さらに、我々の手法は被写体に限定されず、スタイルにも適用可能であり、個人的なスタイル画像が参照として提供された場合にスタイル化された画像生成[41, 38, 13]を可能にする。 加えて、我々のアプローチの被写体主導画像編集[49]への拡張性を示し、ターゲット画像の特定領域を参照被写体で修正することを可能にする。 二連画の右パネルにターゲット画像を配置し、二連画プロンプティングで編集する領域のみをマスクすることで、参照被写体をターゲット画像に成功裏に統合する。
我々の貢献は以下のように要約できる:
-
•
我々の知る限り、本稿はゼロショットの被写体主導型テキスト画像生成をインペインティングタスクとして初めてアプローチし、FLUXの二連画生成能力を強調することで新たな視点を提供している。
-
•
我々は、コンテンツの漏洩を防ぎ、対象の被写体の詳細を確実に捉えるために、被写体を背景から分離し、パネル間の注意重みを強化するという2つの技術を提案する。
-
•
我々は、包括的な定性的および定量的結果を通じて、我々の手法の汎用性と堅牢性を検証し、スタイル主導型生成や被写体主導型画像編集にまでその有効性を拡張している。
2 Related Works
2.1 Diffusion-based Text-to-Image Models
拡散モデル [15, 42, 43, 18] は、GLIDE [29]、LDM [36]、DALL-E 2 [35]、Imagen [40]、eDiff-I [2] を含むテキストから画像生成(TTI)モデルにおいて大きな進歩をもたらした。 これらの中で、Stable Diffusion(SD)シリーズ [36, 33, 8] は、オープンソースの性質と先行研究に匹敵する性能により、特に注目を集めている。 テキストに対するクロスアテンションを備えたU-Net [37] アーキテクチャを使用したv1モデルから始まり、v2を経て、SD-XL [33] へと進化し、データセットの規模、モデルアーキテクチャ、解像度、生成品質が改善された。
最近の生成モデル研究 [32] では、U-Netの代わりにトランスフォーマー [44] アーキテクチャを拡散モデルに組み込むことで、顕著な性能向上を達成している。 この進歩に促され、新たな研究では現在、トランスフォーマーアーキテクチャをTTIモデルに統合しており、最も注目すべきものはSD-3 [8] とFLUX [21] である。 両モデルは、連結されたテキストと画像の埋め込みに対して結合アテンションを行う、TTIモデルのための先進的な設計であるMultiModal-Diffusion Transformer(MM-DiT)アーキテクチャを採用している。
(1) |
(2) |
ここで、 は連結を表し、、、 はそれぞれアテンションのクエリ、キー、バリューの主要コンポーネントを表す。 はアテンションの重みであり、 はアテンションの出力である。 特にFLUXは、オープンソースモデルの中で最大規模のTTIモデルであり、テキスト理解と画像生成品質の両面で先進的な性能を示し、以前のオープンソースモデルを凌駕している。
2.2 Text-Conditioned Inpainting
画像修復は、不完全な画像の欠損領域を、再構築すべき領域を指定するバイナリマスクを用いて埋めることを目的としている。 TTIモデルの最近の進歩により、テキスト条件付き画像修復[49]が開発された。これは、可視領域だけでなくテキストプロンプトとも一致するように欠損領域を補完する。
(3) |
ここで、は望ましい文脈を記述するテキストであり、はテキスト条件付きモデルの生成プロセスである。 事前学習済みTTIモデルから妥当なを実装するために、様々な手法[43, 49]が提案されている。
初期のアプローチ[43]では、さらなる学習を行わずに事前学習済み拡散モデルを採用しているが、より最近の研究では、事前学習済みTTIモデルを微調整したり、画像修復タスク専用の追加モジュール[51]を学習したりしている。 画像修復のための追加学習を通じて、これらのモデルはテキスト条件付き画像修復の2つの主要な目的を達成している:の可視領域との整合性とテキストプロンプトとの整合性である。 様々な画像修復モジュールの中で、ControlNet[51]はFLUXに画像修復機能を提供し、制御を強化するための画像修復特有の条件付けを行っている。 我々は、このモジュールを活用することで、画像修復を被写体主導のテキストから画像への生成フレームワークとして解釈している。
2.3 Subject-Driven Image Generation
被写体駆動型テキスト画像生成に関しては、広範な研究が行われてきた [39, 20, 10, 50, 22, 47, 30, 46, 26, 45, 31]。ここでは、生成された画像がテキストプロンプトによって記述された様々な文脈を描写するだけでなく、参照画像に基づいて特定の被写体も含んでいる。 被写体駆動型テキスト画像生成は、一般的に新しい被写体ごとに追加の学習が必要かどうかに基づいて2つのグループに分類される。
第一のカテゴリー [39, 20, 10, 45] は、被写体の視覚的特徴とその生成方法を学習するために、少数の被写体画像(例:-画像)でファインチューニングを行う。 これらの手法は、被写体に対する最適化を通じて強力な被写体の一致を達成するが、ファインチューニングは新しい被写体ごとに再学習が必要であり、時間とリソースを多く消費する。 さらに、少数の画像での最適化は、新しい被写体に対するオーバーフィッティングや、慎重に防ぐべき事前知識の破滅的忘却につながる可能性がある。
第二のグループ [50, 22, 47, 30, 46, 26, 31] は、画像プロンプティングを導入することで第一のグループの制限に対処している。これは、参照画像を組み込んで生成出力を誘導するフレームワークである。 このアプローチでは、特殊な画像エンコーダー [34] を使用して、テキストプロンプトに加えて追加の画像入力をサポートし、拡散モデルがテキストプロンプトで記述された文脈に従いながら、参照被写体の特徴を捉えることを可能にする。 このアプローチにより、ゼロショットの被写体駆動型テキスト画像生成が可能になるが、合成された被写体の忠実度が不足することが多い。 我々は、インペインティングモジュールを備えた大規模TTIモデルを使用して、被写体駆動型テキスト画像生成のための新しいゼロショットインペインティングベースのアプローチを提案する。
3 Method
3.1 Diptych Generation of FLUX
「二連画」とは、2つのパネルが並んで展示され、各パネルに関連するコンテンツが含まれる二面構成の芸術作品を指す美術用語である。 先行研究であるHQ-Edit [17]は、DALL-E 3 [3]を使用して二連画の形式で画像編集データセットを作成するパイプラインを提案した。 大規模なTTIモデルであるDALL-E 3の強力なテキストと画像の整合性が、二連画における一貫性のある編集ペアの作成に重要な役割を果たしている。
3.2 Diptych Prompting Framework
ゼロショットの被写体駆動型テキスト画像生成において、ほとんどのアプローチは、参照画像から画像特徴を抽出しTTIモデルに統合する、特殊な画像エンコーダーによる画像プロンプティングに依存している。 それに対し、ゼロショットの方法で生成画像に詳細な被写体の特徴を注入するために、我々は図 3 (a)に示すように、インペインティングの観点からゼロショット法を再解釈する新しいプロンプティングアプローチを提案する。
参照被写体画像と、望ましい文脈を記述するターゲットテキストプロンプトが与えられると、二連画プロンプティングはインペインティングベースのプロンプティングのための3つ組から始まる: 不完全な二連画像 、欠損領域を指定する二値マスク 、そして二連画テキスト である。
不完全な二連画像 については、幅方向に2つの画像を連結し、左パネルに参照被写体画像を含め、右パネルにはインペインティングされる同サイズの空白画像を配置する。 我々は、単純な二連画インペインティングでは、背景、ポーズ、位置などの被写体に関係のない内容までミラーリングすることで、参照画像との過度の相互関係が生じることがあると観察した(図 4)。 これを防ぐために、Grounding DINO [25] とSegment Anything Model (SAM) [19] を使用した背景除去プロセス を通じて、参照画像の背景を除去する。 このプロセスでは、Grounding DINOが被写体名を使用してグラウンデッドオブジェクト検出を通じてターゲット被写体のバウンディングボックスを取得し、SAMがこの検出ボックスで被写体セグメンテーションを実行して背景を除去し、左パネルとして準備する。
(4) |
さらに、我々の二値マスク は、視覚的手がかりを提供するために左パネルの参照画像の位置をゼロで指定し、埋められるべき欠損領域を示すために右パネルを1でマークする。
(5) |
ここで、 と はそれぞれ対応するパネルと同じサイズを持つ。
望ましい文脈を持つ二連画の構成を記述する二連画テキスト については、3.1節で使用されたプロンプトテンプレートを利用する。 ターゲットテキストプロンプトから、参照被写体のオブジェクトとして被写体名を使用し、以下の最終的な二連画テキストを得る:「同じ{被写体名}の2つの並んだ画像からなる二連画。左側には、{被写体名}の写真。右側には、この{被写体名}を正確に複製するが、{ターゲットテキストプロンプト}として」。
これらの3つ組を使用して、我々の二連画プロンプティングはテキスト条件付きインペインティングを実行する。
(6) |
ここで、 は望ましい被写体駆動型画像を表す。
3.3 Reference Attention Enhancement
二連画プロンプティングは、左パネルの被写体を参照して二連画の右パネルを再構築します。 しかし、インペインティングモジュールを備えたFLUX [21] は、しばしば被写体の細部を完全に捉えることに苦労します。
最近の研究 [12, 13, 7] によると、U-Netベースのテキスト画像生成モデルにおける画像生成プロセスは、注意機構の主要コンポーネントクエリ、キー、値、および注意の重みを操作することで制御できることが示されていますが、トランスフォーマーベースのアーキテクチャではこのような技術はほとんど探求されていません。 MM-DiTアーキテクチャに基づいて構築されたFLUXは、以前のU-Netベースのモデルよりも多くの注意ブロックを組み込んでおり、このような制御のためのより大きな可能性を提供します。 二連画プロンプティングにおいて、我々はFLUXが注意ブロックを通じて参照画像と生成画像を同時に二連画形式で合成し、左右のパネル間の注意を計算することに注目しました。 これにより、我々は参照注意左パネルの右パネルへの影響を強化し、参照対象の細かい詳細をより良く捉えることができます。
FLUXの注意ブロックにおいて、画像特徴部分は二連画インペインティングにおいて左右のパネルに対応する2つの領域に分割できます。
(7) |
ここで、 はテキストの特徴、 は左パネルの特徴、 は右パネルの特徴です。
4 Experiments
4.1 Experimental Settings
実装の詳細 我々の手法は、大規模TTIモデルであるFLUX-dev111FLUX.1-dev: https://huggingface.co/black-forest-labs/FLUX.1-devを基に実装され、追加のControlNet-Inpaintingモジュール222 FLUX.1-dev-Controlnet-Inpainting-Beta: https://huggingface.co/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Betaを使用している。 我々は、アスペクト比:、サイズのキャンバス上で二連画のインペインティングを実行し、左半分()を参照として使用する。 推論時には、ControlNetの条件付けスケールをに設定し、参照注意再スケーリングパラメータをに設定して、ステップにわたり二連画のインペインティングを実行し、ガイダンススケールはとする[14, 27]。
評価 我々は、DreamBench [39]を用いてゼロショット被写体駆動型テキスト画像生成の性能を測定する。DreamBenchには30の被写体があり、各被写体に25の評価プロンプトが含まれている。 先行研究 [39]に従い、被写体とプロンプトごとに4枚の画像を生成し、合計枚の画像を生成する。 これらの画像は、DINO [5]およびCLIP [34]ベースの指標を用いて評価され、被写体駆動型テキスト画像生成の2つの目的である被写体の一致性とテキストの一致性を定量化する。 被写体の一致性は、DINOとCLIP画像エンコーダー(DINO、CLIP-I)を使用して、生成された画像と実際の画像間の特徴の平均ペアワイズコサイン類似度によって測定される。 テキストの一致性は、生成された画像のCLIP画像埋め込みと目標テキストのCLIPテキスト埋め込み間のペアワイズコサイン類似度によって測定される(CLIP-T)。
4.2 Baseline Comparisons
我々は、本手法をエンコーダーベースの画像プロンプティングを用いた既存のゼロショット被写体駆動型テキスト画像生成手法と比較する。比較対象には、ELITE [47]、BLIP-Diffusion [22]、Kosmos-G [30]、Subject-Diffusion [26]、IP-Adapter [50]、MS-Diffusion [46]、および -Eclipse [31] が含まれる。 これらのモデルの詳細は付録 Aに記載されている。
定性的結果 我々の定性的結果を図 5に示す。参照画像は最左列に、生成結果は右側に配置されている。 被写体駆動型テキスト画像生成のための特別な訓練を行わずにインペインティングアプローチを用いているにもかかわらず、Diptych Promptingは高品質なサンプルを生成し、多様な被写体や状況においてテキストプロンプトを正確に描画しており、既存のアプローチと比較して大幅に優れた結果を示している。 本手法はまた、「モンスターのおもちゃ」や「バックパック」のような特徴的な細部を含む難しい例でも、参照被写体の細かい詳細を捉える点で印象的な性能を示している。
人間の選好調査 我々は、人間の知覚の観点から本手法の優れた性能を人間の選好調査を通じて確認した。 本手法と各ベースラインとの対比較を、被写体の一致度とテキストの一致度という2つの観点から実施した。 Amazon Mechanical Turkを使用し、各ベースラインと各観点についての回答を人の参加者から収集した。 表 1に示すように、Diptych Promptingは全てのベースラインを大きく上回っており(ウィルコクソンの符号順位検定で)、これは定性的結果と一致している。 我々の人間の選好調査に関する詳細情報と完全な指示は付録 Cに含まれている。
Subject Align (%) | Text Align (%) | |||||
---|---|---|---|---|---|---|
Method | win | tie | lose | win | tie | lose |
ELITE [47] | 77.9 | 4.3 | 17.8 | 75.2 | 8.6 | 16.2 |
BLIP-Diff [22] | 73.8 | 8.6 | 17.6 | 77.8 | 4.3 | 17.9 |
-Eclipse [31] | 80.4 | 4.2 | 15.4 | 74.0 | 3.3 | 22.7 |
MS-Diff [46] | 59.3 | 15.6 | 25.1 | 58.9 | 9.1 | 32.0 |
IP-A (SD-XL) [50] | 76.2 | 9.7 | 14.1 | 76.2 | 9.7 | 14.1 |
IP-A (FLUX) [50] | 69.8 | 12.0 | 18.2 | 65.2 | 20.6 | 14.2 |
定量的結果 定量的側面については、比較結果を表 2に示す。 Diptych Promptingは、DINOおよびCLIP-Tスコアで測定された被写体の一致度とテキストの一致度の両方において、同等以上の性能を示している。 また、全てのベースライン手法がCLIP画像エンコーダーを用いて画像プロンプティングを行っているため、高いCLIP-Iスコアを示していることに注目する。 対照的に、我々のインペインティングベースのゼロショットアプローチは、特殊な画像エンコーダーを用いずに大規模TTIモデルの固有の生成能力を活用しているため、CLIP-Iの点ではわずかに不利である。 しかし、他の指標、定性的比較、および両側面にわたる人間による評価研究の結果は、本手法の効果的な性能と堅牢性を確認している。
Method | Model | DINO | CLIP-I | CLIP-T |
---|---|---|---|---|
ELITE [47] | SD-v1.4 | 0.621 | 0.771 | 0.293 |
BLIP-Diff [22] | SD-v1.5 | 0.594 | 0.779 | 0.300 |
Kosmos-G [30] | SD-v1.5 | 0.694 | 0.847 | 0.287 |
Subject-Diff [26] | - | 0.711 | 0.787 | 0.303 |
-Eclipse [31] | Kan-v2.2 | 0.613 | 0.783 | 0.307 |
MS-Diff [46] | SD-XL | 0.671 | 0.792 | 0.321 |
IP-Adapter [50] | SD-XL | 0.613 | 0.810 | 0.292 |
IP-Adapter [50] | FLUX | 0.561 | 0.725 | 0.351 |
Diptych Prompting | FLUX | 0.688 | 0.758 | 0.345 |
4.3 Ablation Studies
Model | Inpainting | Scale | DINO | CLIP-I | CLIP-T |
---|---|---|---|---|---|
SD-3 | Zero-shot | - | 0.475 | 0.670 | 0.330 |
ControlNet | 0.95 | 0.576 | 0.699 | 0.326 | |
FLUX | Zero-shot | - | 0.555 | 0.720 | 0.336 |
ControlNet | 0.5 | 0.628 | 0.737 | 0.351 | |
0.8 | 0.670 | 0.750 | 0.349 | ||
0.95 | 0.689 | 0.758 | 0.344 |
DINO | CLIP-I | CLIP-T | ||
---|---|---|---|---|
✗ | 1.3 | 0.759 | 0.783 | 0.333 |
✓ | 1.0 | 0.647 | 0.745 | 0.343 |
✓ | 1.3 | 0.688 | 0.758 | 0.345 |
✓ | 1.5 | 0.670 | 0.750 | 0.342 |
性能に寄与する要因を分析するため、我々は二連画プロンプティングに関する詳細なアブレーション実験を実施した。
モデル選択 我々は、ゼロショットアプローチ[43]を含む様々なベースモデルとインペインティング手法にわたって我々の手法を検証した。 表 3に示すように、高性能なベースモデルを使用し、インペインティング手法を改善することで、ゼロショットの被写体駆動型テキスト画像生成が向上することを実証した。 これらの結果から、我々は二連画プロンプティングに対して、堅牢なベースモデル、効果的なインペインティング手法、適切なインペインティング条件付けスケールの組み合わせを採用している。 より高度なベースモデルやインペインティング手法を統合することで、将来的に性能が向上し、我々の手法がより多くのタスクに拡張されることが期待される。
および のアブレーション 我々は、二連画プロンプティングにおける背景除去のコンテンツ漏洩防止効果と、参照注意強化の細部保存効果を検証するための追加のアブレーション実験を実施した。結果は表 4に示されている。
背景除去を適用しない場合、コピーアンドペーストのような結果が観察された(図 4)。 これらの結果は、参照画像の鏡像化により被写体アライメント指標を大幅に向上させるが、テキストアライメントを犠牲にしており、DINO、CLIP-Iスコアが高くなる一方で、CLIP-Tスコアが低下する結果となっている。
我々はまた、参照注意強化におけるリスケーリング係数の変化の影響を評価した。 右パネルのクエリと左パネルのキーの間の注意の重みをリスケーリングすることで、細部を捉えやすくなり、被写体のアライメントが改善される。 しかし、過度に高い値を使用すると、過剰な帰納バイアスが導入され、異常な注意の重みが生じて性能に悪影響を及ぼす。 に関する定性的な遷移は、付録 Fで確認できる。
4.4 Applications
Diptych Promptingが示した強力な能力により、我々は被写体駆動型のテキストから画像生成を超えたタスクへの応用も探究する。
様式化された画像生成 我々の手法を被写体画像を超えて拡張し、様々なスタイル画像を参照として使用した様式化された画像生成を行う。 StyleDrop [41]のスタイル画像とプロンプトを使用し、Diptych Promptingを同様に適用するが、二連画テキストの被写体名を'style'という用語に置き換え、内容を除くスタイル要素のみを参照するために注意強化()は行わない。 Diptych Promptingは、図 6に示すように、参照のスタイルを反映した様式的な画像を成功裏に生成し、定量的比較は付録 Gで確認できる。
被写体駆動型画像編集 我々はさらに、特定の被写体でターゲット画像を修正するインペインティングベースの被写体駆動型画像編集をサポートするよう我々のアプローチを適応させた。 この設定では、参照被写体画像を用いてDiptych Promptingを利用するが、右パネルを編集対象画像として割り当て、編集される領域にのみマスクを適用する。 編集結果を図 7に示す。 Diptych Promptingの能力により、編集された画像はマスクされていない領域を効果的に保持しつつ、目的の被写体をターゲット領域にシームレスに統合している。
5 Conclusion
本稿では、ゼロショットの被写体駆動型テキスト画像生成のためのインペインティングベースのアプローチである二連画プロンプティングを提案した。 二連画プロンプティングは、テキスト条件付き二連画インペインティングを実行する:左パネルは被写体を含む参照画像であり、右パネルは所望の文脈を含む二連画を記述するテキストプロンプトに基づいてインペインティングされる。 背景を除去し参照注意を強化することで、不要なコンテンツの漏洩を排除し、被写体の整合性を向上させた。 この革新的なアプローチは、大規模TTIモデルの固有の特性を活用し、特に目標の被写体を正確に捉え、複雑な文脈を表現する点で、従来の手法を上回る優れた結果を達成した。 我々はまた、様式化された画像生成や被写体駆動型画像編集における我々の手法の汎用性を実証した。 これらの貢献に基づき、二連画プロンプティングが画像生成における新しい方向性を示唆し、ビデオや3Dを含む幅広い生成タスクにわたって影響を与えることを期待している。
Acknowledgement
本研究は、韓国政府(MSIT)が助成する国家研究財団(NRF)の助成金[No. 2022R1A3B1077720]、韓国政府(MSIT)が助成する情報通信企画評価院(IITP)の助成金[NO.RS-2021-II211343、人工知能大学院プログラム(ソウル国立大学)]、および2024年のソウル国立大学における未来ICTパイオニアのための教育研究プログラムBK21 FOURプログラムによって支援された。
References
- Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
- Balaji et al. [2022] Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, et al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.
- Betker et al. [2023] James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2(3):8, 2023.
- Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, 2020.
- Caron et al. [2021] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 9650–9660, 2021.
- Chang et al. [2023] Huiwen Chang, Han Zhang, Jarred Barber, Aaron Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Patrick Murphy, William T Freeman, Michael Rubinstein, et al. Muse: Text-to-image generation via masked generative transformers. In International Conference on Machine Learning, pages 4055–4075. PMLR, 2023.
- Chefer et al. [2023] Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, and Daniel Cohen-Or. Attend-and-excite: Attention-based semantic guidance for text-to-image diffusion models. ACM Transactions on Graphics (TOG), 42(4):1–10, 2023.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
- Gafni et al. [2022] Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv Taigman. Make-a-scene: Scene-based text-to-image generation with human priors. In European Conference on Computer Vision, pages 89–106. Springer, 2022.
- Gal et al. [2023] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, 2023.
- Garibi et al. [2024] Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or. Renoise: Real image inversion through iterative noising. In European Conference on Computer Vision, 2024.
- Hertz et al. [2023] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-to-prompt image editing with cross attention control. In International Conference on Learning Representations, 2023.
- Hertz et al. [2024] Amir Hertz, Andrey Voynov, Shlomi Fruchter, and Daniel Cohen-Or. Style aligned image generation via shared attention. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4775–4785, 2024.
- Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
- Huberman-Spiegelglas et al. [2024] Inbar Huberman-Spiegelglas, Vladimir Kulikov, and Tomer Michaeli. An edit friendly ddpm noise space: Inversion and manipulations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12469–12478, 2024.
- Hui et al. [2024] Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, and Cihang Xie. Hq-edit: A high-quality dataset for instruction-based image editing. arXiv preprint arXiv:2404.09990, 2024.
- Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in neural information processing systems, 35:26565–26577, 2022.
- Kirillov et al. [2023] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023.
- Kumari et al. [2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1931–1941, 2023.
- Labs [2024] Black Forest Labs. Flux.1-dev. https://huggingface.co/black-forest-labs/FLUX.1-dev, 2024.
- Li et al. [2024] Dongxu Li, Junnan Li, and Steven Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. 2024.
- Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023.
- Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
- Liu et al. [2024] Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, et al. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. In European Conference on Computer Vision, 2024.
- Ma et al. [2024] Jian Ma, Junhao Liang, Chen Chen, and Haonan Lu. Subject-diffusion: Open domain personalized text-to-image generation without test-time fine-tuning. In ACM SIGGRAPH 2024 Conference Papers, pages 1–12, 2024.
- Meng et al. [2023] Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans. On distillation of guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14297–14306, 2023.
- Mokady et al. [2022] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. 2023 ieee. In CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 6038–6047, 2022.
- Nichol et al. [2022] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. In International Conference on Machine Learning, 2022.
- Pan et al. [2024] Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, and Furu Wei. Kosmos-g: Generating images in context with multimodal large language models. In The Twelfth International Conference on Learning Representations, 2024.
- Patel et al. [2024] Maitreya Patel, Sangmin Jung, Chitta Baral, and Yezhou Yang. -eclipse: Multi-concept personalized text-to-image diffusion models by leveraging CLIP latent space. arXiv preprint arXiv:2402.05195, 2024.
- Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
- Podell et al. [2024] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
- Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
- Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pages 234–241. Springer, 2015.
- Rout et al. [2024] Litu Rout, Yujia Chen, Nataniel Ruiz, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, and Wen-Sheng Chu. Rb-modulation: Training-free personalization of diffusion models using stochastic optimal control. arXiv preprint arXiv:2405.17401, 2024.
- Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
- Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.
- Sohn et al. [2024] Kihyuk Sohn, Lu Jiang, Jarred Barber, Kimin Lee, Nataniel Ruiz, Dilip Krishnan, Huiwen Chang, Yuanzhen Li, Irfan Essa, Michael Rubinstein, et al. Styledrop: Text-to-image synthesis of any style. Advances in Neural Information Processing Systems, 36, 2024.
- Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In International Conference on Learning Representations, 2021a.
- Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.
- Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
- Voynov et al. [2023] Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, and Kfir Aberman. p+: Extended textual conditioning in text-to-image generation. arXiv preprint arXiv:2303.09522, 2023.
- Wang et al. [2024] X Wang, Siming Fu, Qihan Huang, Wanggui He, and Hao Jiang. Ms-diffusion: Multi-subject zero-shot image personalization with layout guidance. arXiv preprint arXiv:2406.07209, 2024.
- Wei et al. [2023] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, and Wangmeng Zuo. Elite: Encoding visual concepts into textual embeddings for customized text-to-image generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15943–15953, 2023.
- Xu et al. [2023] Sihan Xu, Yidong Huang, Jiayi Pan, Ziqiao Ma, and Joyce Chai. Inversion-free image editing with natural language. arXiv preprint arXiv:2312.04965, 2023.
- Yang et al. [2023] Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen, and Fang Wen. Paint by example: Exemplar-based image editing with diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18381–18391, 2023.
- Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023.
Appendix
Appendix A Baselines
我々は、人間の選好調査および定性的・定量的評価で比較したエンコーダベースの画像プロンプティングベースラインの詳細を提供する。 これらはすべて、参照画像から画像特徴を抽出し、TTIモデルに注入する専門の画像エンコーダを利用している。 これらのモデルは、ゼロショットの被写体駆動型テキスト画像生成のための画像プロンプティングを可能にするために専門の画像エンコーダを訓練するが、特に被写体の細かい詳細において、被写体の整合性を損なっている。 定性的結果と人間の選好調査については、オープンソースの重みが利用可能なベースラインとのみ我々の手法を比較する。
-
•
ELITE333ELITE: https://github.com/csyxwei/ELITE [47] は視覚的概念をテキスト埋め込みにエンコードし、グローバルおよびローカルマッピングネットワークを活用して主要および補助的特徴を別々に表現することで、被写体駆動型テキスト画像生成における高い忠実性と編集可能性を確保している。
-
•
BLIP-Diffusion444BLIP-Diff: https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion [22] はBLIP-2 [23] に従ってマルチモーダルエンコーダを事前訓練し、対象被写体のテキストに整合した視覚表現を生成する。また、TTIモデルが効率的な被写体駆動型テキスト画像生成を実行できるように被写体表現を学習する。
- •
-
•
Subject-Diffusion [26] は、独自の大規模被写体駆動型データセットで訓練された画像エンコーダを利用して、粗い情報と細かい参照情報の両方を事前訓練されたTTIモデルに組み込み、テスト時の微調整なしで高忠実度の被写体駆動型テキスト画像生成を可能にする。 Subject-Diffusionにも利用可能なオープンソースの重みがないため、論文で報告された値との定量的比較のみを行う。
-
•
-Eclipse555-Eclipse: https://github.com/eclipse-t2i/lambda-eclipse-inference [31] はCLIPベースの潜在空間と画像テキスト交互事前訓練および対比損失を採用し、テキストと画像の埋め込みを統一された空間に投影することで、被写体固有の視覚特徴を保持し、目標テキストプロンプトを反映する。
-
•
MS-Diffusion666MS-Diff: https://github.com/MS-Diffusion/MS-Diffusion [46] は、詳細な特徴統合のためのグラウンディングリサンプラーと空間制御を確保し被写体の競合を緩和するマルチ被写体クロスアテンション機構を採用することで、マルチ被写体ゼロショット被写体駆動型テキスト画像生成のためのレイアウトガイド付きフレームワークを導入する。
-
•
IP-Adapter777IP-Adapter (SD-XL): https://huggingface.co/h94/IP-Adapter 888IP-Adapter (FLUX): https://huggingface.co/XLabs-AI/flux-ip-adapter [50] は、事前訓練されたTTIモデルの画像プロンプティングを可能にする効果的な軽量アダプターを訓練し、テキストプロンプトと画像プロンプトに対して別々のクロスアテンション層を持つ分離されたクロスアテンション機構を使用する。 IP-Adapter論文が発表された時点では、SD-v1.5 [36] が使用されていたが、その後、SD-XL [33]、SD-3 [8]、FLUX [21] を含むより新しいバージョンが利用可能になっている。 定量的比較については、SD-XLバージョンの結果を別の研究 [31] から参照し、FLUXバージョンについては公平な比較を確保するために我々独自の評価を実施した。 IP-Adapterを使用するすべての実験において、ベースモデルのバージョンに関わらず、条件付けスケールは に設定されている。
Appendix B Subject-Driven Text-to-Image Generation
B.1 Evaluation Setting
我々は、DreamBench [39]のの被写体に対して、ベースラインとの主要な比較を行う。 これらはの物体との生体被写体から構成され、物体または生体被写体に対しての評価プロンプトがある。 Diptych Promptingは、対象の被写体を指すために被写体名を使用し、二連画像テキストの対象の説明に被写体名を含む評価プロンプトを利用する。 すべてのゼロショットベースラインと我々の手法において、テキストプロンプトで対象の被写体をより正確に指すために、被写体名に説明的な修飾語を追加して強化している。 各被写体の被写体名は、以下のように(ディレクトリ名、被写体名)の形式でまとめられる:
-
•
backpack, バックパック
-
•
backpack_dog, バックパック
-
•
bear_plushie, クマのぬいぐるみ
-
•
berry_bowl, 'Bon appetit'ボウル
-
•
can, 'Transatlantic IPA'缶
-
•
candle, ジャーキャンドル
-
•
cat, トラ猫
-
•
cat2, グレーの猫
-
•
clock, 数字'3'の時計
-
•
colorful_sneaker, カラフルなスニーカー
-
•
dog1, ふわふわした犬
-
•
dog2, ふわふわした犬
-
•
dog3, カールした毛の犬
-
•
dog5, 長毛の犬
-
•
dog6, 子犬
-
•
dog7, 犬
-
•
dog8, 犬
-
•
duck_toy, アヒルのおもちゃ
-
•
fancy_boot, フリンジ付きのクリーム色のブーツ
-
•
grey_sloth_plushie, グレーのナマケモノのぬいぐるみ
-
•
monster_toy, モンスターのおもちゃ
-
•
pink_sunglasses, サングラス
-
•
poop_emoji, おもちゃ
-
•
rc_car, おもちゃ
-
•
red_cartoon, 漫画のキャラクター
-
•
robot_toy, ロボットのおもちゃ
-
•
shiny_sneaker, スニーカー
-
•
teapot, 陶器のティーポット
-
•
vase, 背の高い花瓶
-
•
wolf_plushie, オオカミのぬいぐるみ
B.2 Comparison with Fine-Tuning-Based Method
より包括的な比較を提供するために、我々は代表的なFine-Tuningベースの手法であるDreamBooth [39]とも比較を行った。 効率的な訓練のために、我々は事前学習済みのFLUXにLoRAアダプターを取り付け、FLUXを凍結しながらLoRAアダプターのみを訓練することでFine-Tuningを実施した。 学習率のAdamオプティマイザーを使用して300ステップ訓練を行った。 さらに、異なるFine-Tuningモデル容量を比較するために、LoRAアダプターのランクを調整し、同じ評価指標(DINO、CLIP-I、CLIP-T)を用いて比較実験を行った。 結果は図 A1に示されており、我々のDiptych Promptingは様々なモデル容量において優れた性能を示している。
B.3 Additional Results
我々は、多様な物体と文脈におけるDiptych Promptingの追加サンプルを図 A2および図 A3に含めている。 結果が示すように、我々の手法はFLUXの能力を活用することで、ゼロショットで高品質な画像生成を達成し、被写体の一致とテキストの一致の両方を満たしている。 特筆すべきは、これが被写体駆動型のテキストから画像への生成に特化した訓練を行うことなく達成されていることである。 また、対象の被写体の細部が生成結果によく反映されていることも注目に値する。これは、以前のゼロショット手法が苦戦していた難しい被写体(例:ロボットのおもちゃ、「Bon appetit」と書かれたボウル)においても同様である。
Appendix C Human Preference Study
先行研究[39]に従い、我々は人間の選好調査を、被写体の一致とテキストの一致という2つの側面について、それぞれ別個のアンケートによる一対比較で実施した。 両アンケートにおいて、ユーザーには参照画像、目標テキスト、および各手法で生成された2枚の画像が提示される。 その後、以下の指示に従って、どちらの画像が望ましい目的をより良く満たしているかを選択するよう求められる。
被写体の一致について:
-
•
参照被写体を確認し、その後生成された被写体を確認してください。
-
•
生成された2つの項目のうち、どちらが参照項目のアイデンティティ(項目の種類と詳細)をより良く再現しているかを選択してください。
-
•
被写体は付属品(例:帽子、衣装)を身につけている場合があります。これらは回答に影響を与えないようにしてください。考慮に入れないでください。
-
•
判断がつかない場合は、「判断不能/両方同等」を選択してください。
-
•
どちらの機械生成画像が参照画像の被写体に最もよく一致していますか?
テキストの一致について:
-
•
目標テキストを確認し、その後生成された項目を確認してください。
-
•
生成された2つの項目のうち、どちらが目標テキストによってより良く記述されているかを選択してください。
-
•
ここでも判断がつかない場合は、「判断不能/両方同等」を選択してください。
-
•
どちらの機械生成画像が参照テキストによって最もよく記述されていますか?
Appendix D Diptych Generation
Model | Arch | Param | DINO | CLIP-I | CLIP-T |
---|---|---|---|---|---|
SD-v2 | U-Net | 1.2B | 0.504 | 0.744 | 0.260 |
SD-XL | U-Net | 3.5B | 0.941 | 0.954 | 0.288 |
SD-3 | MM-DiT | 7.7B | 0.705 | 0.821 | 0.340 |
FLUX | MM-DiT | 16.9B | 0.720 | 0.828 | 0.352 |
我々のフレームワークは、大規模TTIモデルであるFLUXの創発的特性、特に二連画の特性に関する強力な理解と二連画を正確に表現する能力に依存している。 我々は、個の二連画を合成し、個のオブジェクトを使用し、各パネルに対して個のプロンプトから2つのランダムなプロンプトのペアを用いて、他の既存のTTIモデルと二連画生成性能を比較することでこれを検証した。 二連画生成のプロンプトは、本稿のセクション3.1で言及されたセットアップに従っている。 我々は、各パネルの相互関係とテキストの整合性を評価することで、各二連画の品質を評価した。 これは、生成された画像を半分に分割し、各パネル間のDINOスコアとCLIP-Iスコア、および各パネルとその説明文間のCLIP-Tスコアを測定することで評価された。 結果は表A1に示されており、二連画生成性能とオートエンコーダー、主要ネットワーク、テキストエンコーダーを含む総パラメータ数が報告されている。 これらの結果は、小規模なモデルでは不十分である中、FLUXの優れた二連画生成能力を示している。 これにより、我々はインペインティングに拡張し、二連画インペインティングベースの解釈を通じてゼロショット被写体駆動型テキスト画像生成手法を提案することが可能となる。
Appendix E Background Removal Ablation
我々は、背景除去プロセスを用いた場合と用いない場合のアブレーション研究のための追加サンプルを図A4に示す。 本稿の主要な結果と一致して、背景を含めることはコンテンツの漏洩につながり、背景、ポーズ、位置などの無関係な要素が生成結果に反映されてしまう。 これにより、テキストで記述された所望のコンテキストを正確に反映することが妨げられ、ポーズと位置の多様性が低下する。 対照的に、背景を除去し、左パネルの参照画像に被写体情報のみを残すことで、生成された出力は所望のコンテキストとより良く一致し、ポーズと位置においてより大きな多様性を示すことができる。
Appendix F Reference Attention Enhancement Ablation
我々は、本稿の主要部分で示した定量的アブレーションを裏付けるために、参照注意のリスケーリング係数の値に応じた実際のサンプル品質の変化をさらに提示する。 これらの変化は図 A5に視覚化されている。 定性的結果に見られるように、参照注意強化の欠如()は、被写体の細部の損失につながる可能性があり、バックパックの犬の左目、右目のパッチ、犬の顔の毛色、またはクマのぬいぐるみの毛皮のテクスチャなどの微妙な不一致を引き起こす。 の値が増加するにつれて、これらの見逃された詳細がより良く保持され、被写体の整合性能が向上する。 しかしながら、過度の強化は生成された画像の品質に悪影響を及ぼし、被写体がわずかにぼやけたり、わずかな色のずれを示したりする可能性がある。
Appendix G Stylized Image Generation
様式化された画像生成において、Diptych Promptingは様式画像を左パネルに配置し、"同じ様式の2つの並列画像からなる二連画。左側には、{元の画像の説明}。右側には、この様式を正確に再現するが、{目標画像の説明}"というテキストプロンプトを用いて右パネルをインペイントする。この際、内容を除く様式的要素のみを参照するため、注意強化()は使用しない。 追加のサンプルは図 A6に示されている。 定性的結果に加えて、我々は同じメトリクス(DINO、CLIP-T、CLIP-I)を用いた定量的比較も表 A2に含めている。これらは合計枚の生成画像に適用されたものである。 これらの画像には、個のプロンプトと枚の様式画像にわたって、プロンプトごとおよび様式画像ごとにサンプルが含まれている。これらは先行研究[41]から収集したものである。 結果が示すように、我々の手法は様式化された画像生成に特化した既存のゼロショット様式転送手法と同等の結果を示しており、本手法の汎用性をさらに証明している。
Appendix H Subject-Driven Image Editing
二連画プロンプティングは、不完全な二連画の左パネルに参照被写体画像を、右パネルに編集対象画像を配置することで、被写体主導型画像編集に拡張される。 右パネルの所望の領域のみをマスクし、二連画インペインティングを適用することで、左パネルの参照被写体が右パネルのマスクされた領域に生成され、被写体主導型画像編集が実現される。 先行研究[49]に従い、我々はMSCOCO[24]検証データセットのサブセットから選択された画像を用いて被写体主導型画像編集を行う。ここで、各画像にはバウンディングボックスが含まれており、そのバウンディングボックスは画像サイズの半分未満である。 我々は、バウンディングボックス内部にマスキングを適用し、指定された領域内に参照被写体を生成できるようにした。 様々な被写体と編集対象画像のさらなるサンプルは図 A7で確認できる。
Appendix I Limitations
現在、FLUXは二連画を効果的に生成するのに十分な能力を持つ唯一のモデルである。しかし、より高度なテキストから画像への変換(TTI)モデルが利用可能になるにつれ、我々の手法がより広範囲のモデルに適用可能になると予想している。 他のエンコーダーベースのゼロショットアプローチの進歩に合わせて、複数の被写体駆動型テキストから画像生成の探求が必要である。我々はこの探求を今後の課題としている。 さらに、二連画の生成には、生成される画像のアスペクト比がである必要がある。 FLUXの生成可能な解像度の制限により、ピクセルサイズの二連画像を生成することができず、ピクセルまでの結果を確認し、被写体駆動型画像(右パネル)のサイズがピクセルとなった。 将来的には、ControlNet [51]のような超解像モデルや高解像度画像生成のための高度なTTIモデルを活用することで、この問題は容易に解決できると予想している。