arXiv	https://arxiv.org/abs/2411.14793
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Style-Friendly SNR Sampler for Style-Driven Generation

Jooyoung Choi^1,∗ Chaehun Shin^1,∗ Yeongtak Oh¹ Heeseung Kim¹ Sungroh Yoon^1,2,†
¹Data Science and AI Laboratory, ECE, Seoul National University
²AIIS, ASRI, INMC, ISRC, and Interdisciplinary Program in AI, Seoul National University
{jy_choi, chaehuny, dualism9306, gmltmd789, sryoon}@snu.ac.kr

Abstract

近年の大規模拡散モデルは高品質な画像を生成するが、新しい個性的な芸術スタイルの学習に苦戦しており、これが独自のスタイルテンプレート作成の制限となっている。参照画像を用いたファインチューニングが最も有望なアプローチであるが、事前学習で使用された目的関数やノイズレベル分布を盲目的に利用することが多く、スタイルの整合性が最適化されない結果となっている。我々は、Style-friendly SNRサンプラーを提案する。これは、ファインチューニング中に信号対雑音比（SNR）分布を積極的に高ノイズレベルへシフトさせ、スタイル的特徴が現れるノイズレベルに焦点を当てるものである。これにより、モデルは独自のスタイルをより良く捉え、スタイルの整合性が高い画像を生成することが可能となる。本手法により、拡散モデルは新しい「スタイルテンプレート」を学習し共有することができ、個人化されたコンテンツ作成を強化する。我々は、個人の水彩画、ミニマルなフラットカートゥーン、3Dレンダリング、マルチパネル画像、テキスト付きのミームなどのスタイルを生成する能力を実証し、これによりスタイル駆動型生成の範囲を拡大している。

1 Introduction

近年、大規模なテキストから画像への拡散モデル [42, 8, 38, 37, 47, 29, 1] は、視覚的コンテンツ生成において顕著な進歩を遂げている。特に、Stable Diffusionシリーズ [42, 8] やFLUX [29] のようなオープンウェイトモデルは、写実的な画像品質と言語理解能力において最も注目すべきものの一つとなっている。この強力な性能の背景には、スコアベースモデル [55] とフローマッチング [32, 33] の原理を包含する拡散フレームワークの進歩、拡散定式化 [55, 32, 33, 17]、損失重み付け [4, 24]、ノイズレベルスケジューリング [18, 22]、そしてアーキテクチャの改善 [36, 8, 23] がある。これらの進歩は主に、物体中心のベンチマーク [21, 11] と評価指標 [15, 28] に関して高品質な画像を生成することに焦点を当ててきた。

テキストから画像生成モデルの成功に触発され、個々のユーザーやアーティストが望むスタイルを捉えた生成サンプルを作成する、スタイル駆動型生成への需要が高まっている。ここで「スタイル」とは、色彩、レイアウト、照明、筆致など、画像の独特なニュアンスに寄与する様々な要素を包含する[10, 51, 31, 7]。しかし、テキストプロンプトのみに依存することは、これらの複雑で個人的な芸術的スタイルを捉えるには限界がある。特に事前学習データに存在しないスタイルの場合はなおさらである。

スタイル駆動型生成を可能にするため、研究者たちは望むスタイルの参照画像を用いてテキストから画像生成モデル[47, 3]のファインチューニング[45, 51]に注目してきた。多くの場合、LoRA[19]のような軽量なアダプターを使用している。これは新しい芸術的スタイルを正確に捉え再現する最も効果的な方法であり続けている。しかし、彼らは事前学習に使用された目的関数とノイズレベル分布を、元々オブジェクト中心のベンチマーク[11, 21]向けに最適化されたものを、盲目的に適用している。これはオブジェクト中心の画像とは異なるスタイル画像固有の特性を考慮していない。その結果、多数のスタイル駆動型生成研究[51, 30, 61, 44, 14]があるにもかかわらず、我々はスタイル参照でディフュージョンモデルをファインチューニングする際に広範な失敗事例を観察している。これらの失敗に対処するには、時に人間からの大規模なフィードバックを伴う二段階の訓練が必要となる[51]。

本稿では、これらの制限に対処するため、Style-friendly SNRサンプラーを導入する。これは、ファインチューニング中にモデルの新しい芸術的スタイルを捉える能力を大幅に向上させる手法である。我々のアプローチは、以下の2つの重要な観察に基づいている：1) 拡散モデルは新しいスタイルの学習に苦戦する、2) スタイルはより高いノイズレベルで出現する。これらの観察に基づき、我々はファインチューニング中に拡散モデルの目的関数におけるノイズレベルのサンプリングを調整することを提案する。我々のStyle-friendly SNRサンプラーを使用して信号対雑音比（SNR）を直接サンプリングすることで、色彩スキーム、レイアウト、照明など、スタイル表現の重要な要素であるスタイル特徴が出現する高いノイズレベルに分布を偏らせる。先行研究[8, 30]とは異なり、我々のアプローチはこれらのスタイル的側面の捕捉に焦点を当てている。

我々のStyle-friendly SNRサンプラーにより、FLUX-dev[29]やStable Diffusion 3.5[8, 57]などの最先端モデルが、前例のない精度でスタイルテンプレートを効果的に学習することが可能となる。我々の手法は、より忠実なスタイル駆動型生成をもたらし、参照スタイル画像の独自性を捉える。さらに、先行研究がオブジェクト中心の概念の学習に優れている一方でスタイルの学習に苦戦する理由を説明する重要な要素を明らかにし、スタイル駆動型生成のための拡散プロセスについてより深い洞察を提供する。最終的に、我々のアプローチは参照画像からスタイルテンプレートを作成することを可能にし、これらは実践者がコンテンツ作成のために容易に共有・利用できる。これにより、テキストから画像への拡散モデルの能力が拡張される。

2 Training Diffusion Models

Refer to caption — 図2: 微調整能力。 FLUXは物体の学習に成功している一方(a)、スタイルの捕捉に苦戦している(b)。我々はFLUXがスタイルを学習できるようにした(c)。参照画像は赤い挿入ボックス内に示されている。

2.1 Diffusion Process

様々な拡散モデル [50, 17, 55, 32, 33] は、時間 $t$ が $0$ から $1$ に進むにつれて、データ $x_{0}$ を純粋なノイズ $x_{1}$ に徐々に劣化させる前方プロセスに基づいており、以下の統一された定式化に従う：

x_{t}=\alpha_{t}x_{0}+\sigma_{t}\epsilon,

(1)

ここで、 $\alpha_{t}$ と $\sigma_{t}$ は事前に定義されたノイズスケジュールであり、 $\epsilon\sim\mathcal{N}(0,I)$ は標準ガウスノイズを表す。 Stable Diffusion 3 (SD3) [8] や FLUX [29] などの最新の最先端拡散モデルは、 $\alpha_{t}=1-t$ および $\sigma_{t}=t$ を用いた整流フロー [32, 33] からのノイズスケジュールを利用している。この選択は、直線的な拡散軌道により効果的である。

拡散プロセスは一般的にタイムステップ $t$ によってパラメータ化されるが、Kingma ら [25, 24] はノイズレベルを対数信号対雑音比（log-SNR）を用いて特徴づけている：

\lambda_{t}=\log\left(\frac{\alpha_{t}^{2}}{\sigma_{t}^{2}}\right).

(2)

整流フローの場合、 $\lambda_{t}=2\log\left(\frac{1-t}{t}\right)$ である。本稿では、 $t$ を使用するよりも、 $\lambda_{t}$ に基づいてタイムステップ分布を調整することで、スタイルをより効果的に学習できることを示す。

2.2 Unified Loss Function

Kingmaら[25, 24]は、様々な拡散モデルの目的関数[17, 42, 32, 33, 22, 54, 55]が同じ形式を共有していることを示した。一般的な損失関数は以下のように表現される：

\mathcal{L}_{DM}(x_{0})=\mathbb{E}_{\lambda\sim p(\lambda)}\bigg{[}||f_{\theta% }(x_{\lambda},\lambda)-f(x_{\lambda},\lambda)||^{2}\bigg{]},

(3)

ここで、 $f(x_{\lambda},\lambda)$ は目標関数である。整流フローの場合、モデル $f_{\theta}$ は速度 $f(x_{\lambda},\lambda)=\epsilon-x_{0}$ を予測する。

$p(\lambda)$ の役割を考慮すると、これは損失関数における重み付け係数として機能し、訓練中に異なるノイズレベルに割り当てられる重要性を決定する：

	$\displaystyle\mathcal{L}_{DM}(x_{0})=\int_{\lambda_{\text{min}}}^{\lambda_{% \text{max}}}p(\lambda)\|\|f_{\theta}(x_{\lambda},\lambda)-f(x_{\lambda},\lambda)% \|\|^{2}d\lambda$		(4)
	$\displaystyle=\mathbb{E}_{\lambda\sim U(\lambda_{\text{min}},\lambda_{\text{% max}})}\bigg{[}p(\lambda)\|\|f_{\theta}(x_{\lambda},\lambda)-f(x_{\lambda},% \lambda)\|\|^{2}\bigg{]}.$

この観点から、我々は $p(\lambda)$ を通じて拡散モデルに課される帰納的バイアスを観察することができる。先行研究[4, 6]では、モデルが大きなノイズレベル（小さな $\lambda$ ）で低周波情報を学習し、小さなノイズレベル（大きな $\lambda$ ）で高周波の詳細を学習することが議論されている。結果として、拡散モデルは粗から細へと画像を生成する[41, 6]。

2.3 SNR Samplers

これまでの拡散モデルは、主にログSNR $\lambda_{t}$ ではなく、タイムステップ $t$ に基づいて設計されてきた。訓練時には $t$ が一様分布からサンプリングされるのが一般的であった [17, 42, 36]。したがって、拡散損失における各ノイズレベルの重要性は、関数 $\lambda_{t}$ のみによって決定されていた。しかし、EDM [22] は、このアプローチが拡散モデルの設計空間を複雑化させると主張し、ノイズ分散 $\sigma_{t}$ を対数正規分布からサンプリングすることを提案している。

SD3 [8] は、この手法をテキストから画像への生成モデルの訓練に拡張し、タイムステップ $\log\left(\frac{t}{1-t}\right)$ のロジット関数を正規分布からサンプリングしている。前述のように、SD3は整流フロー定式化に従い、ログSNRを $\lambda_{t}=2\log\left(\frac{1-t}{t}\right)$ としている。さらに、高解像度の訓練のために、タイムステップ $t$ を $t_{\text{new}}$ に $k$ だけシフトすることを提案している：

t_{\text{new}}=\frac{kt}{1+(k-1)t},

(5)

これは、以下のように $\lambda_{t}$ を $-2\log k$ だけシフトすることと等価である：

\lambda_{t_{\text{new}}}=2\log\left(\frac{1-t_{\text{new}}}{t_{\text{new}}}% \right)=\lambda_{t}-2\log k.

(6)

3 Method

3.1 Observations

Diffusion Models Struggle to Capture Styles.

我々は、最新の最先端モデルの微調整能力の検討から始める。現在の多くのテキストから画像生成モデルは、オブジェクト中心の画質に集中し、その性能を実証している。最新の拡散モデルの中で、代表的なテキストから画像生成モデルであるFLUX [29]は、微調整を通じてオブジェクト駆動型の画像生成に優れており、様々なシナリオにおいて微調整されたオブジェクトの高品質な生成を可能にしている。図 2aでは、犬をテーマにしたバックパックが夜のサーフィンシーンによく統合され、適切な夜の照明と一致している。下の犬は新しい服を着ており、タイポグラフィも上手く生成されている。しかし、FLUXは事前学習に使用されたSNRサンプラー [8]で微調整する際、色彩、照明、筆致の観点からスタイルを捕捉するのに苦戦している。図 2bでは、「発光」の例はナマケモノの毛皮を光らせるだけで、参照画像の暗い背景や青い照明を反映していない。同様に、ゴッホの油絵の参照に関しては、青い色調は捉えているものの、ゴッホ特有の筆致を再現できていない。

Styles Emerge at Higher Noise Levels.

スタイルの微調整の失敗を調査するため、我々はスタイルに関連するさらなる分析を行う。テキストから画像生成の拡散モデルで画像を生成する際、スタイルの特徴が現れるノイズレベルを調査する。我々は、ノイズ除去プロセスの特定の間隔でのみ「フラットな漫画イラストで」などのスタイルの説明を組み込む。

図 3に示すように、我々はノイズ除去の初期段階でスタイルの説明を除外するためにテキスト $y_{\text{w/o style}}$ を使用し、残りのステップでスタイルの説明を含むテキスト $y_{\text{w/ style}}$ に切り替えるテキスト条件付き生成プロセスを実装する。スタイルの説明がすべてのノイズ除去ステップで使用される場合、生成された画像は望ましいスタイルとよく一致する（図 3a）。興味深いことに、ノイズ除去ステップの最初の10%だけでスタイルの説明を省略すると、スタイルが適切に反映されていない画像が生成される（図 3c）。これらの画像は、スタイルの説明を全く使用せずに生成された写実的なサンプル（図 3d）に非常に似ている。後半のノイズ除去ステップで $y_{\text{w/o style}}$ を使用するケースは図 S8に示されている。

この観察は、スタイルの特徴がノイズ除去プロセスの初期段階、つまりlog-SNR $\lambda_{t}$ が小さい（すなわち、より高いノイズレベル）区間で決定されることを示している。その後のノイズ除去ステップは主に、スタイルとは独立したコンテンツと細部を描画する。したがって、初期ステップでスタイルのプロンプトを欠くことは、モデルが望ましいスタイルで画像を生成する能力を著しく阻害し、スタイル表現における初期段階の条件付けの重要性を強調している。

3.2 Style-Friendly SNR Sampler

我々の観察は、スタイル学習の主要な動機を示している。スタイルはノイズ除去プロセスの初期段階で現れるが、現在の微調整プロセスは事前学習からのSNRサンプラーを使用しており、これは図4の緑線に示されているように、オブジェクト中心の生成を優先している[21, 11]。このSNRサンプラーは、オブジェクトの細部をより良く捉えるために中間ステップに重点を置いているが、スタイルが現れるノイズレベルに十分に焦点を当てていない。その結果、オブジェクト駆動の生成では優れているにもかかわらず、現在の微調整はスタイル駆動の生成においてターゲットスタイルを完全に捉えて表現することに苦戦している。

この動機に基づき、我々は、スタイル的特徴が現れる高いノイズレベル（より低いlog-SNR $\lambda_{t}$ 値）に向けてノイズレベル分布にバイアスをかけることで、拡散モデルを微調整することを提案する。具体的には、以下の正規分布からlog-SNRをサンプリングする：

\lambda_{t}\sim\mathcal{N}(\mu_{\text{low}},\sigma^{2}),

(7)

ここで、平均 $\mu_{\text{low}}$ を低くすることで、スタイル学習に不可欠な重要なノイズレベルに学習を集中させる。標準偏差 $\sigma=2$ は、重要なノイズレベルへの集中と効果的な学習のためのノイズレベルの十分な変動のバランスを保つために設定する。

式5のタイムステップシフトがノイズレベル分布に弱いバイアスをかけるのに対し、スタイルに適したSNRサンプラーは望ましいノイズレベルにより積極的に重点を置くことができる。平均を $\mu=-6$ に設定することで、スタイル特徴が現れる0.8から1.0の間にタイムステップを集中させる（セクション3.1）。これにより、様々なスタイルテンプレートにわたってスタイルに強く焦点を当てた微調整を拡散モデルにサポートすることができる。

3.3 Trainable Parameters of MM-DiT

我々は、FLUX-dev [29] とSD3.5 [8, 57] の両方を、特定の層にLoRA [19] アダプターを学習させることで新しいスタイルを捉えるようファインチューニングしている。現在のところ、FLUX-devとSD3.5の両方の中核アーキテクチャであるマルチモーダル拡散トランスフォーマー（MM-DiT） [8] をファインチューニングした研究は存在しない。MM-DiTは、テキストトークンと画像トークンに対して別々のパラメータを持つデュアルストリームトランスフォーマーブロックで構成されており、これらは共同注意メカニズムを通じて相互作用する。視覚的および言語的特徴の両方を包含するスタイル的特徴を効果的に学習するために、我々は両方のモダリティの注意層にLoRAを適用している。さらに、FLUXには両方のモダリティを同時に処理する単一ストリームブロックが含まれており、これらは注意メカニズムと、この注意をスキップする投影層を持っているが、我々はこれらにもLoRAを適用している。このターゲットを絞ったファインチューニングにより、ネットワーク全体を学習することなく高いスタイル適合性を達成しており、MM-DiTをファインチューニングするためのパラメータ効率の良い方法を提供している。

4 Experiments

我々は、FLUX-dev [29] とSD3.5-8B [8, 57] をStyleDrop [51] からの18の参照スタイルでファインチューニングすることで、我々の手法を評価する。各参照スタイルについて、[51] から収集した23の評価プロンプトそれぞれに対して2枚の画像を生成し、実験ごとに合計828枚の画像を評価する。

定量的評価のために、我々はDINO [2] ViT-S/16とCLIP [39] ViT-B/32画像類似度（CLIP-I）を使用してスタイルの一致を評価し、CLIPテキスト画像類似度（CLIP-T）を使用して目標プロンプトとの一致を測定する。

すべてのモデルは、Adamオプティマイザ [26] を使用して300ステップ、学習率 $10^{-4}$ でファインチューニングされる。我々は、凍結された事前学習済みモデルに対してLoRA [19] ファインチューニングを実行し、ランクのアブレーション研究を除くすべての実験でランク32を使用する。推論時には、28のデノイジングステップを使用し、ガイダンス [16, 34] スケールを7.0に設定する。

4.1 Analysis of Style-Friendly SNR Sampler

図5および図6において、我々はスタイルフレンドリーSNRサンプラーのパラメータ、具体的にはlog-SNRサンプリング分布の平均（ $\mu$ ）と標準偏差（ $\sigma$ ）、およびLoRAのランクを変化させた場合の影響を分析する実験を行った。SD3の事前学習に使用されたノイズレベル分布をSD3サンプラーと呼ぶ[8]。

Effect of Varying $\bm{\mu}$ .

平均 $\mu$ はスタイル学習に影響を与える最も重要な設計選択である。我々はFLUX-devとSD3.5-8Bの両方について、 $\mu$ の値を0から $-8$ まで変化させる実験を行った。図5に示すように、 $\mu$ を増加させると、モデルは参照スタイルの学習に徐々に失敗するようになる。図6(a)では、 $\mu$ の増加に伴いDINO類似度が低下し、スタイルの整合性が劣ることを示している。

逆に、図5では、 $\mu$ を $-6$ 以下（より負の値）に設定すると、モデルは参照スタイルを効果的に捉え、反映し始める。図S5では、オブジェクト参照に対する $\mu$ の影響も示している。

Effect of Varying $\bm{\sigma}$ .

我々は図6(b)において、log-SNRサンプリング分布の標準偏差 $\sigma$ を変化させる効果も調査した。 $\sigma$ が2未満の場合、モデルはより狭い間隔から学習するため、ノイズレベルの多様性が減少し、スタイルの整合性が低下する可能性がある。これは、 $\sigma$ がノイズレベルの幅に影響を与える一方で、適度な $\sigma$ （例えば $\sigma=2$ ）を維持することで、重要なノイズレベルに焦点を当てつつ、スタイル学習に十分な多様性を持つノイズレベルから学習するバランスが取れることを示唆している。

Effect of Varying Rank.

図6(c)では、LoRAのランクを変化させることでモデル容量の影響を検討している。特筆すべきは、低い $\mu=-6$ において、ランク4がSD3サンプラーのランク32（点線）と比較して高いDINO類似度を達成していることである。これは、より高いノイズレベル（より低い $\lambda_{t}$ ）に焦点を当てることが、モデル容量単独よりもスタイル学習に顕著な効果をもたらすことを示している。

4.2 Qualitative Results

我々は、Style-friendly SNRサンプラーを、SD3サンプラー[8]、直接一貫性最適化（DCO）[30]、IP-Adapter[61, 60]（これらはFLUX-devをバックボーンモデルとして使用）、RB-Modulation[44]（Stable Cascade[37]を使用）、Style-Aligned[14]（SDXL[38]を使用）を含む以前の手法と比較する。

図7において、我々のStyle-friendly SNRサンプラーは参照画像のスタイルを正確に捉え、色彩、レイアウト、照明、筆致を含むスタイル的特徴を反映している。対照的に、標準的なSD3サンプラーを用いたFLUX-devのファインチューニングは、レイアウト（列1、2）や色彩（列3-7）などの重要なスタイル要素の捕捉に失敗することが多い。¹¹1一部のオープンソース実装（例：Hugging Face Diffusers [58] v 0.31）では、ファインチューニング中のタイムステップシフトが省略されている可能性がある。読者は結果を再現する際にこの潜在的な省略に注意すべきである。

DCOを用いたFLUX-devのファインチューニングは、事前学習済みモデルからの大幅な逸脱を防ぐ強力な正則化のため、参照スタイルの学習に苦戦する。FLUX-devを用いたIP-AdapterとRB-Modulationは、CLIP[39]とCSD[52]の埋め込みに依存しており、これらは細かいスタイルの詳細を捉えきれない可能性があり、スタイルの再現性が低下する。Style-Alignedは拡散モデル内で自己注意特徴を共有するが、注意特徴が競合する場合に構造の破壊（列1、2）や四肢の重複（列4-7）などのアーティファクトを引き起こす可能性がある。

Style Alignment
Method	Model	win	tie	lose
Style-Aligned [14]	SDXL	61.0 %	7.1%	31.9%
RB-Mod [44]	Cascade	55.6 %	12.6%	31.8%
IP-Adapter [61]	FLUX-dev	59.2 %	8.0%	32.8%
DCO [30]	FLUX-dev	56.0 %	10.2%	33.8%
SD3 sampler [8]	FLUX-dev	56.0 %	9.2%	34.8%
Text Alignment
Method	Model	win	tie	lose
Style-Aligned [14]	SDXL	60.7%	7.5%	31.8%
RB-Mod [44]	Cascade	54.3%	6.3%	39.4%
IP-Adapter [61]	FLUX-dev	56.0%	4.6%	39.4%
DCO [30]	FLUX-dev	53.2%	10.0%	36.8%
SD3 sampler [8]	FLUX-dev	56.5%	14.0%	29.5%

表1: 人間による評価。我々の手法とベースラインとのスタイルとテキストの整合性を比較するユーザー選好結果。

我々はさらに、Amazon Mechanical Turkを使用してユーザー調査を実施し、人間の選好を定量化した。先行研究[51]に従い、我々の手法を各手法と2つの別個のアンケートで比較した。参照スタイル画像と目標テキストプロンプトに基づいて、ユーザーは生成された2つの画像のうち、どちらが参照画像のスタイルにより類似しており、目標テキストプロンプトをより適切に表現しているかを選択するよう求められた。各比較について150人の参加者から450の回答を得て、その結果を表1に示す。我々の手法は両側面において先行研究を上回っており（Wilcoxonの符号順位検定で $p<0.05$ ）、これは定性的結果と一致し、スタイル要素の学習における我々の手法の優位性を示している。ユーザー調査の詳細についてはセクションC.3に記載されている。

4.3 Quantitative Results

表 2において、我々は本手法と先行研究をDINO [2]およびCLIP画像類似度（CLIP-I）を用いてスタイルの一致度を評価し、CLIPテキスト画像類似度（CLIP-T）を用いてテキストの一致度を評価している。我々の手法は、すべてのバックボーンにおいて最高のDINOおよびCLIP-Iスコアを達成しており、参照画像からスタイルを捉える優れた能力を示している。

我々のCLIP-Tスコアは一部の手法と比較してわずかに低いものの、人間による評価（表 1）ですでにテキストの一致度が優れていることを示している。これは、スタイルを捉えることに失敗する手法が、プロンプトの最も一般的な解釈を生成することが多く、典型的な表現に偏りがあるためにCLIP-Tスコアが高くなることを示唆している。全体として、我々の定量的結果は、本手法がスタイルとテキストの両方を正確に反映していることを確認している。

Method	Model	Metrics
Method	Model	DINO $\uparrow$	CLIP-I $\uparrow$	CLIP-T $\uparrow$
Style-Aligned [14]	SDXL	0.410	0.675	0.340
RB-Mod [44]	Cascade	0.317	0.647	0.363
DCO [30]	SD3.5	0.399	0.661	0.355
SD3 sampler [8]	SD3.5	0.424	0.670	0.350
Style-friendly	SD3.5	0.489	0.698	0.349
IP-Adapter [61]	FLUX-dev	0.361	0.656	0.354
DCO [30]	FLUX-dev	0.373	0.643	0.353
SD3 sampler [8]	FLUX-dev	0.373	0.645	0.350
Style-friendly	FLUX-dev	0.461	0.686	0.344

表2: 定量的比較。 [51]からの18のスタイルにおけるスタイルの一致度（DINOおよびCLIP-I）とテキストの一致度（CLIP-T）。我々のスタイルフレンドリーな手法は、優れたスタイル一致度スコアを示している。

4.4 Applications

マルチパネル。 Dreambooth [45]は、漫画のキャラクターで微調整されたモデルを使用して各パネルを生成することで、マルチパネル漫画を示している。しかし、図 8の最初の行では、我々はこれらの複数のパネルを微調整時に単一の画像として扱っている。新しい被写体が目標プロンプトで指定されると、我々は複数の漫画スタイルのパネルにわたって同時に被写体を生成する。このアプローチにより、単一の参照を使用して一貫性のあるマルチパネル漫画を生成することが可能となる。

タイポグラフィ。我々の手法は、図 1に示されているようなミーム生成を含むタイポグラフィにも拡張できる。最近のモデルのスペリング能力を活用し[29, 57]、我々はユニークなスタイルのカスタマイズされたタイポグラフィを生成し、その結果を図 8の2行目に示している。この多様性により、ユーザーは幅広いカスタマイズされたテキスト要素を容易に生成することができる。

5 Related Works

5.1 Diffusion Models

拡散モデルはノイズからデータを生成し、ノイズスコアマッチングに基づくアプローチ[54, 55, 22]、最尤推定訓練[25]、および整流フロー[32, 33]を包含している。拡散モデルの性能に影響を与える重要な要因の一つは、訓練中のノイズレベルに対するサンプリング分布であり、これはノイズレベルの重要度サンプリングとして知られている。ノイズスケジュールの調整[18, 35]と重み調整[4, 22, 24]に焦点を当てた研究は、異なるノイズレベルを慎重に重み付けすることで、高品質な拡散モデルの訓練に成功している。その有効性は、オブジェクト中心のメトリクスとベンチマーク[15, 28, 21, 11]によって示されている。

5.2 Style-Driven Generation

テキストから画像への変換モデルの進歩に伴い、実務者たちは個人的なスタイルを特徴とする画像の生成をますます求めるようになってきた [51, 61, 44, 30]。この分野では特に、ファインチューニング手法が注目を集めている [45, 51, 30]。我々の研究と密接に関連するStyleDrop [51]は、マスク付き生成モデル [3]を利用し、多段階の訓練を通じて人間によるデータ選択を行っている。一部の研究は複数の概念を同時に学習することに焦点を当てており [27, 20]、あるいは複数のファインチューニングされたモデルを統合している [49, 30]。また、拡散モデルのU-Net [43]層を分析し、スタイルの学習に最も効果的な層を特定する研究もある [9]。しかしながら、ファインチューニングは新しい大規模モデルがリリースされるたびにハイパーパラメータの探索が必要となり [38, 8, 29]、拡散目的関数への深い理解なしに適用されることが多い。

スタイル駆動型生成の代替アプローチとして、ゼロショット手法が提案されている [61, 44, 14, 59]。しかし、これらの手法はファインチューニングと比較してスタイルの一致度が依然として不十分であり、特定のドメインに限定されることが多い [13, 46]。これらの制限があるため、本稿では拡散目的関数の挙動に関する洞察を提供し、ファインチューニングをより利用しやすく効果的にすることを目指して、ファインチューニングアプローチに焦点を当てている。

6 Conclusion

本稿では、拡散モデルにおけるスタイル的特徴が主に高いノイズレベルで出現することを観察した。これまでの微調整アプローチが新しい芸術的スタイルを捉えるうえでの限界に対処するため、我々はスタイルフレンドリーSNRサンプラーを提案した。これは、SNR分布を高いノイズレベルに偏向させるものである。我々は、色彩スキーム、レイアウト、照明、筆致の観点から参照スタイルを反映するスタイル駆動型生成を示した。本研究が、拡散モデルをデジタルアートのプレビューワーとして使用するための足がかりとなることを期待している。

Acknowledgement

本研究は、韓国政府（MSIT）が助成する国家研究財団（NRF）の助成金[No. 2022R1A3B1077720]、韓国政府（MSIT）が助成する情報通信企画評価院（IITP）の助成金[NO.RS-2021-II211343、人工知能大学院プログラム（ソウル国立大学）]、および2024年のソウル国立大学におけるBK21 FOUR未来ICT先駆者のための教育研究プログラムによって支援された。

References

Balaji et al. [2022] Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, et al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. arXiv preprint arXiv:2211.01324, 2022.
Caron et al. [2021] Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 9650–9660, 2021.
Chang et al. [2023] Huiwen Chang, Han Zhang, Jarred Barber, Aaron Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Patrick Murphy, William T Freeman, Michael Rubinstein, et al. Muse: Text-to-image generation via masked generative transformers. In International Conference on Machine Learning, pages 4055–4075. PMLR, 2023.
Choi et al. [2022] Jooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, and Sungroh Yoon. Perception prioritized training of diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11472–11481, 2022.
Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. In Advances in neural information processing systems, pages 8780–8794, 2021.
Dieleman [2024] Sander Dieleman. Diffusion is spectral autoregression, 2024.
Efros and Freeman [2023] Alexei A Efros and William T Freeman. Image quilting for texture synthesis and transfer. In Seminal Graphics Papers: Pushing the Boundaries, Volume 2, pages 571–576. 2023.
Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
Frenkel et al. [2024] Yarden Frenkel, Yael Vinker, Ariel Shamir, and Daniel Cohen-Or. Implicit style-content separation using b-lora. arXiv preprint arXiv:2403.14572, 2024.
Gatys et al. [2016] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2414–2423, 2016.
Ghosh et al. [2024] Dhruba Ghosh, Hannaneh Hajishirzi, and Ludwig Schmidt. Geneval: An object-focused framework for evaluating text-to-image alignment. Advances in Neural Information Processing Systems, 36, 2024.
Guttenberg [2023] Nicholas Guttenberg. Diffusion with offset noise. https://www.crosslabs.org/blog/diffusion-with-offset-noise, 2023.
He et al. [2024] Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, et al. Imagine yourself: Tuning-free personalized image generation. arXiv preprint arXiv:2409.13346, 2024.
Hertz et al. [2024] Amir Hertz, Andrey Voynov, Shlomi Fruchter, and Daniel Cohen-Or. Style aligned image generation via shared attention. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4775–4785, 2024.
Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Hoogeboom et al. [2023] Emiel Hoogeboom, Jonathan Heek, and Tim Salimans. simple diffusion: End-to-end diffusion for high resolution images. In International Conference on Machine Learning, pages 13213–13232. PMLR, 2023.
Hu et al. [2022] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In International Conference on Learning Representations, 2022.
Hu et al. [2024] Hexiang Hu, Kelvin CK Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, et al. Instruct-imagen: Image generation with multi-modal instruction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4754–4763, 2024.
Huang et al. [2023] Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, and Xihui Liu. T2i-compbench: A comprehensive benchmark for open-world compositional text-to-image generation. arXiv preprint arXiv: 2307.06350, 2023.
Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in neural information processing systems, 35:26565–26577, 2022.
Karras et al. [2024] Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, and Samuli Laine. Analyzing and improving the training dynamics of diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 24174–24184, 2024.
Kingma and Gao [2024] Diederik Kingma and Ruiqi Gao. Understanding diffusion objectives as the elbo with simple data augmentation. Advances in Neural Information Processing Systems, 36, 2024.
Kingma et al. [2021] Diederik Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. Advances in neural information processing systems, 34:21696–21707, 2021.
Kingma [2014] Diederik P Kingma. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
Kumari et al. [2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1931–1941, 2023.
Kynkäänniemi et al. [2023] Tuomas Kynkäänniemi, Tero Karras, Miika Aittala, Timo Aila, and Jaakko Lehtinen. The role of imagenet classes in fréchet inception distance. In The Eleventh International Conference on Learning Representations, 2023.
Labs [2024] Black Forest Labs. Flux.1-dev. https://huggingface.co/black-forest-labs/FLUX.1-dev, 2024.
Lee et al. [2024] Kyungmin Lee, Sangkyung Kwak, Kihyuk Sohn, and Jinwoo Shin. Direct consistency optimization for compositional text-to-image personalization. arXiv preprint arXiv:2402.12004, 2024.
Li et al. [2017] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Universal style transfer via feature transforms. In Advances in neural information processing systems, pages 386–396, 2017.
Lipman et al. [2023] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In The Eleventh International Conference on Learning Representations, 2023.
Liu et al. [2023] Xingchao Liu, Chengyue Gong, et al. Flow straight and fast: Learning to generate and transfer data with rectified flow. In The Eleventh International Conference on Learning Representations, 2023.
Meng et al. [2023] Chenlin Meng, Robin Rombach, Ruiqi Gao, Diederik Kingma, Stefano Ermon, Jonathan Ho, and Tim Salimans. On distillation of guided diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14297–14306, 2023.
Nichol and Dhariwal [2021] Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International conference on machine learning, pages 8162–8171. PMLR, 2021.
Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
Pernias et al. [2023] Pablo Pernias, Dominic Rampas, Mats L. Richter, Christopher J. Pal, and Marc Aubreville. Wuerstchen: An efficient architecture for large-scale text-to-image diffusion models, 2023.
Podell et al. [2024] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
Rafailov et al. [2024] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
Rissanen et al. [2023] Severi Rissanen, Markus Heinonen, and Arno Solin. Generative modelling with inverse heat dissipation. In The Eleventh International Conference on Learning Representations, 2023.
Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pages 234–241. Springer, 2015.
Rout et al. [2024] Litu Rout, Yujia Chen, Nataniel Ruiz, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, and Wen-Sheng Chu. Rb-modulation: Training-free personalization of diffusion models using stochastic optimal control. arXiv preprint arXiv:2405.17401, 2024.
Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
Ruiz et al. [2024] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, and Kfir Aberman. Hyperdreambooth: Hypernetworks for fast personalization of text-to-image models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6527–6536, 2024.
Saharia et al. [2022] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022.
Sauer et al. [2025] Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach. Adversarial diffusion distillation. In European Conference on Computer Vision, pages 87–103. Springer, 2025.
Shah et al. [2025] Viraj Shah, Nataniel Ruiz, Forrester Cole, Erika Lu, Svetlana Lazebnik, Yuanzhen Li, and Varun Jampani. Ziplora: Any subject in any style by effectively merging loras. In European Conference on Computer Vision, pages 422–438. Springer, 2025.
Sohl-Dickstein et al. [2015] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015.
Sohn et al. [2024] Kihyuk Sohn, Lu Jiang, Jarred Barber, Kimin Lee, Nataniel Ruiz, Dilip Krishnan, Huiwen Chang, Yuanzhen Li, Irfan Essa, Michael Rubinstein, et al. Styledrop: Text-to-image synthesis of any style. Advances in Neural Information Processing Systems, 36, 2024.
Somepalli et al. [2024] Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, and Tom Goldstein. Measuring style similarity in diffusion models. arXiv preprint arXiv:2404.01292, 2024.
Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In International Conference on Learning Representations, 2021a.
Song and Ermon [2019] Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems, 32, 2019.
Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021b.
Song et al. [2023] Yang Song, Prafulla Dhariwal, Mark Chen, and Ilya Sutskever. Consistency models. In International Conference on Machine Learning, pages 32211–32252. PMLR, 2023.
stabilityai [2024] stabilityai. stable-diffusion-3.5-large. https://huggingface.co/stabilityai/stable-diffusion-3.5-large, 2024.
von Platen et al. [2022] Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, Mishig Davaadorj, Dhruv Nair, Sayak Paul, William Berman, Yiyi Xu, Steven Liu, and Thomas Wolf. Diffusers: State-of-the-art diffusion models. https://github.com/huggingface/diffusers, 2022.
Wang et al. [2024] Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, and Anthony Chen. Instantstyle: Free lunch towards style-preserving in text-to-image generation. arXiv preprint arXiv:2404.02733, 2024.
XLabs-AI [2024] XLabs-AI. flux-ip-adapter. https://huggingface.co/XLabs-AI/flux-ip-adapter, 2024.
Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.

Appendix

Appendix A Additional Results

A.1 Qualitative Results

Additional Samples.

我々は、FLUX-dev [29] を使用した追加サンプルを提示し、我々の手法の多様性を実証する。図 S1は、正方形の参照画像でファインチューニングを行った場合でも、我々のモデルが参照スタイルを維持しながら異なるアスペクト比の画像を生成できることを示している。各プロンプトに対して、2つの異なるランダムシードからの結果を示し、様々なアスペクト比における多様性を例示する。図 S2は、異なるアスペクト比での追加のタイポグラフィサンプルを提供し、スタイル化されたテキストコンテンツを生成する我々の能力を示している。

Additional Comparison.

我々は、複数パネル画像などの複雑なスタイルテンプレートの学習における、スタイルフレンドリーSNRサンプラーの有効性をさらに実証する。図 S3に示すように、我々の手法は与えられた複数パネルのスタイルを捉え、参照に非常に似た画像を生成する。対照的に、以前のファインチューニングアプローチであるSD3サンプラー [8] とDCO [30] は、複数パネルの概念を学習できず、パネル構造のない画像を生成する。オフセットノイズ [12] 手法はスタイルを反映しようとするが、依然として単一パネルまたは参照よりも少ないパネルの画像を生成する。IP-Adapter [61]、RB-Modulation [44]、Style-Aligned [14] を含むゼロショットアプローチも複数パネル画像の生成を試みるが、図 S4に示すように、しばしば参照とは異なる構造の出力を生成する。これは、他のアプローチが苦戦する難しいスタイルを扱う我々の手法の能力を強調している。

Effect of Varying $\mu$ on Object References.

我々は、スタイルフレンドリーSNRサンプラーのパラメータ $\mu$ がオブジェクト参照のファインチューニングにどのように影響するかを図 S5で検討する。FLUXはSD3サンプラーを使用してオブジェクト参照を適切にファインチューニングするが、 $\mu=0$ を設定すると色の結合と構造に失敗する。例えば、時計の生成では色と数字が欠落し、バックパックと花瓶の周りのひまわりはオブジェクトを黄色に変え、紫の敷物はオブジェクトも紫に見せる。フラットな漫画の悪魔の例では、モデルは参照の独特な短い手足と構造を捉えることができない。これらの発見は、より大きな $\mu$ がオブジェクトに固有の色彩スキームを含むスタイル要素の学習を妨げることを示している。これは、オブジェクトのファインチューニングにおけるFLUXの成功が、オブジェクト中心の生成に向けてノイズレベル分布が調整されることに起因することを示唆している。

SD3.5 Samples.

我々は、SD3.5-8Bモデル [57] を使用してスタイルフレンドリーSNRサンプラーを評価し、SD3サンプラー [8] とDCO [30] などの以前のファインチューニング手法と比較することで、定性的比較を拡張する。図 S6に示すように、結果は図 7で提示されたFLUX-devを使用した定性的比較と一致している。

A.2 Quantitative Results

CLIP Scores.

図6において、我々はDINO類似度スコアを用いて平均 $\mu$ 、標準偏差 $\sigma$ 、およびLoRAランクの分析を提示した。図7(a)では、我々の発見をさらに検証するために、対応するCLIP画像類似度（CLIP-I）スコアを提供する。CLIP-Iスコアは、 $\mu$ を減少させることでスタイルの整合性が向上するという、DINOスコアと同様の傾向を示している。 $\sigma$ の変化は、DINOの結果と一貫してCLIP-Iスコアに影響を与える。 $\mu=-6$ とランク4を用いた我々のStyle-friendly SNRサンプラーは、依然としてランク32のSD3サンプラー（点線）を上回る性能を示している。

Effectiveness Compared to Increasing Model Capacity.

我々の手法がモデル容量の増加よりも効果的であることを示すために、より高いLoRAランク128を用いてSD3サンプラーでモデルを微調整する追加実験を行った。表S1に示すように、ランク32の我々のStyle-friendly SNRサンプラーは、ランク128のSD3サンプラーと比較して、より高いDINOおよびCLIP-Iスコアを達成している。これは、スタイルが出現する重要なノイズレベルに焦点を当てることが、学習可能なパラメータ数を増やすよりも大きな影響を持つことを示している。したがって、我々のアプローチは、より大きなモデル容量を必要とせずにスタイルの整合性を向上させる。

Trainable Parameters.

MM-DiT[8]の両方のトランスフォーマーブロックを微調整することの重要性を検証するために、我々はSD3.5-8Bで画像トランスフォーマーブロックのみにLoRAアダプターを学習させた場合と、画像および文章トランスフォーマーブロックの両方で学習させた場合の結果を比較するアブレーション研究を行った。表S2に示すように、画像および文章トランスフォーマーブロックの両方を微調整することで、画像トランスフォーマーブロックのみを微調整する場合と比較して、より高いDINOおよびCLIP-Iスコアが得られる一方、CLIP-Tスコアは同一である。これは、微調整プロセスに文章トランスフォーマーブロックを含めることで、テキストの整合性を損なうことなく、モデルのスタイル特徴学習能力が向上することを示している。これらの結果は、新しいスタイルを効果的に捉えるためには、MM-DiTの視覚的および言語的コンポーネントの両方を微調整することが有益であることを示唆している。

Method	Model	Metrics
Method	Model	DINO $\uparrow$	CLIP-I $\uparrow$	CLIP-T $\uparrow$
SD3 Sampler [8]	FLUX-dev	0.373	0.645	0.350
w/ rank 128	FLUX-dev	0.426	0.668	0.345
Style-friendly	FLUX-dev	0.461	0.686	0.344

表S1: LoRAランクの増加との比較。

Method	DINO	CLIP-I	CLIP-T
Style-friendly	0.489	0.698	0.349
w/o Text attn	0.462	0.693	0.349

表S2: 学習可能パラメータに関するアブレーション研究。

A.3 Additional Observations

Styles Emerge at Higher Noise Levels.

我々は、スタイルの説明が初期のノイズ除去ステップでのみ与えられる場合を検討する。具体的には、ノイズ除去プロセスの最初の10%において拡散モデルに $y_{\text{w/ style}}$ というプロンプトで条件付けし、その後残りのステップでは非スタイルプロンプト $y_{\text{w/o style}}$ に切り替える。図 S8に示すように、ノイズ除去の大部分でスタイルの説明がないにもかかわらず、生成された画像は意図したスタイルを反映している。これは、スタイルの特徴が主に高ノイズレベル、つまり初期のノイズ除去ステップで出現することを確認している。生成された画像は、全ステップでスタイルの説明を使用した場合と類似しており、初期の条件付けがスタイル表現に十分であることを示している。

Probability Distribution of Timestep.

我々は、サンプリングされたlog-SNR値に対応するタイムステップの確率密度プロットを提示する。log-SNR分布を負の方向にシフトさせることで、結果として得られるタイムステップ分布は $t=1$ に向かって積極的に歪むことが図 S9に示されている。色付きの領域は、スタイルが出現すると観察されるタイムステップの区間を示している。このシフトにより、スタイル表現に重要なタイムステップにおける確率密度が増加し、スタイル駆動型生成のための微調整中にこれらのタイムステップに焦点を当てることになる。

Appendix B Baselines

本節では、比較に用いたベースライン手法を概説し、スタイル駆動型生成に対処する上で我々のアプローチがそれらとどのように異なるかを強調する。ベースライン手法には、ファインチューニングベースの手法であるSD3サンプラー[8]、直接一貫性最適化（DCO）[30]、および我々の手法が含まれる。また、ゼロショット手法としてIP-Adapter[61]、RB-Modulation[44]、Style-Aligned[14]がある。公平な比較を確保するため、すべてのファインチューニングベースの手法は同じ参照画像とトレーニングプロンプトを使用して訓練される。特筆すべきは、我々のStyle-friendly SNRサンプラーがファインチューニング中にタイムステップシフティング[8]を無効にしていることである。ファインチューニングプロセスには、ランク32（LoRAランク分析を除く）と学習率 $10^{-4}$ のLoRA[19]を使用する。モデルはバッチサイズ1で訓練され、4ステップにわたる勾配累積を採用している。すべての実験はHugging Face Diffusersライブラリバージョン0.31.0を使用して実装され、単一のNVIDIA A40 GPUで実施される。FLUX-devモデルは、トレーニング中のメモリ消費を節約するために勾配チェックポイントを用いて訓練される。

B.1 Direct Consistency Optimization

直接一貫性最適化（Direct Consistency Optimization, DCO）[30]は、大規模言語モデル（LLM）で一般的に使用される直接選好最適化[40]にインスピレーションを得たファインチューニング手法である。DCOは拡散損失を直接最小化するのではなく、参照データに対するファインチューニングされたモデルの拡散損失が事前学習モデルのそれよりも低くなることを目指す。目的関数は以下のように定義される：

	$\displaystyle\mathcal{L}_{DCO}(x_{0})=\mathbb{E}_{t,\epsilon}\bigg{[}-\text{% log}\sigma(-\beta Tw(t)$
	$\displaystyle\|\|f_{\theta}(x_{t},t)-f(x_{t},t)\|\|^{2}-\|\|f_{\phi}(x_{t},t)-f(x_{t% },t)\|\|^{2})\bigg{]}.$		(8)

この目的関数において、パラメータ $\beta T$ は事前学習モデルに対するファインチューニングされたモデルの選好の強さを制御する。DCOは、ファインチューニングされたモデルの事前学習モデルに対する相対的な尤度を増加させ、ファインチューニングされたモデルの損失がより小さい場合にペナルティを軽減する。これにより、事前学習モデルのテキストから画像への整合性が保持される。

しかしながら、DCOはファインチューニングされたモデルと事前学習モデルの両方を含む計算を必要とするため、標準的な拡散損失を用いた直接的なファインチューニングよりも計算コストが高くなる。我々の実験では、 $\beta T=1000$ の値を大きくすると収束が遅くなり、最適でない性能となることが観察された。そのため、我々は $\beta T=1$ に設定し、より良い結果を得た。

B.2 IP-Adapter

IP-Adapter [61]は、CLIP画像埋め込み[39]をエンコードするコンパクトなアダプターを訓練することで、テキストから画像への変換モデルが同一性を保持した画像を生成できるように設計されている。このアダプターは、その出力をテキスト埋め込みと連結することで、CLIP画像埋め込みを追加入力として導入する。IP-Adapterのパラメータ効率の高い性質により、様々なテキストから画像への変換モデルにわたって容易に訓練および展開が可能である。しかしながら、顕著な制限として、CLIP埋め込みの表現力の制約による限定的なスタイル整合性があり、これにより生成された画像が詳細なスタイル特性を完全に捉えられない可能性がある。

B.3 RB-Modulation

RB-Modulation [44] は、Stable Cascade [37] を用いたゼロショットアプローチである。Stable Cascadeは、CLIPの画像埋め込みとテキスト埋め込みの両方を入力として受け入れるモデルである。ノイズ除去プロセス中、RB-Modulationは、スタイルの類似性を測定するためにCLIPから微調整されたモデルであるCSDの勾配ガイダンスを採用しており、これは分類器ガイダンス [5] に類似している。各ノイズ除去ステップにおいて、CSDは近似された $x_{0}$ と参照画像との類似性を計算し、この類似性を高めるように生成プロセスを導く。RB-Modulationはまた、複数の注意機構の特徴を集約する。

しかしながら、このアプローチはCLIPの画像埋め込みを受け入れるモデルに依存しており、モデルの選択が制限される。さらに、CSDの勾配ガイダンスを使用することで推論コストが増加し、生成プロセスがより計算集約的になる。

B.4 Style-Aligned

Style-Aligned [14] は、画像トークンの自己注意層において共有されたキーと値の特徴を通じて、各画像の特徴が参照画像の特徴に注意を向けるようにすることで、同じスタイルの一貫した画像セットを生成する。まず、DDIM反転 [53] を使用して参照画像をノイズにマッピングし、ノイズ除去中に自己注意の特徴を共有する。参照スタイルへの忠実性は、拡散モデルにおける自己注意のロジットを増幅することで制御できる。しかしながら、Style-Alignedは画像のみの自己注意層を持たないMM-DiT [8] アーキテクチャには直接適用できない。さらに、人為的に自己注意のロジットを増幅すると、矛盾する注意特徴により、アーティファクトや品質の低下した画像につながる可能性がある。

B.5 Offset Noise

オフセットノイズ[12]は、単色画像を生成するために拡散モデルを微調整する方法として提案されました。拡散プロセス中、標準的なガウシアンノイズに加えて、すべてのピクセル位置で同一の定数オフセットノイズが小さな係数（例えば0.1）でスケーリングされて追加されます。これにより、単調なノイズパターンへの明示的なバイアスが導入され、モデルが単色を学習し再現することが促進されます。オフセットノイズは単調なパターンの学習に役立つ一方で、より複雑なスタイルを学習するモデルの能力を妨げる可能性があります。

本稿では、我々の訓練プロセスにオフセットノイズを組み込む追加実験を表 S3で行いました。0.1のスケールのオフセットノイズは、SD3サンプラーのDINOおよびCLIP-Iスコアの結果を改善します。これは、StyleDrop論文[51]からの多くの参照スタイルが単色の背景を持っており、このトリックに有利だからです。しかし、それでも我々のStyle-friendly SNRサンプラーのパフォーマンスには及びません。さらに、我々のStyle-friendlyアプローチとより小さなスケール（0.01）のオフセットノイズを組み合わせると、FLUX-devのスタイル一致性がわずかに向上することが観察されました。

この定量的評価は、StyleDrop[51]の参照に広く見られる単色の背景に基づいています。図 S3での我々の定性的比較は、オフセットノイズが複雑な参照に苦戦し、繊細なスタイルの詳細を捉えられないことを示しています。これは、オフセットノイズが単純で均一なスタイルには役立つ可能性がある一方で、複雑なスタイルに対しては脆弱であることを示唆しています。

Method	Model	Metrics
Method	Model	DINO $\uparrow$	CLIP-I $\uparrow$	CLIP-T $\uparrow$
SD3 Sampler [8]	SD3.5	0.424	0.670	0.350
w/ offset 0.1	SD3.5	0.452	0.678	0.353
Style-friendly	SD3.5	0.489	0.698	0.349
w/ offset 0.01	SD3.5	0.476	0.697	0.350
SD3 Sampler [8]	FLUX-dev	0.373	0.645	0.350
w/ offset 0.1	FLUX-dev	0.451	0.679	0.349
Style-friendly	FLUX-dev	0.461	0.686	0.344
w/ offset 0.01	FLUX-dev	0.500	0.704	0.341

表S3: オフセットノイズの組み込み。オフセットノイズはSD3サンプラーを改善するが、依然として我々のStyle-friendly SNRサンプラーのパフォーマンスには及ばない。我々のStyle-friendlyアプローチとより小さなスケール（0.01）のオフセットノイズを組み合わせると、FLUX-devのスタイル一致性がわずかに向上する。

Appendix C Experimental Details

C.1 Style Prompts

我々は、StyleDrop論文の付録に示されている18の参照スタイルを用いて、すべての定量的評価を実施する[51]。これら18のスタイルのスタイルプロンプトもStyleDropの付録に記載されている。定性的評価については、我々は追加の挑戦的なスタイル参照を使用し、図 S10に各画像の対応するスタイルプロンプトを表示する。最初と2番目の参照は、オープンソースのミーム生成器source1およびsource2を使用して作成されている。3番目の参照は、Dreambooth[45]論文の付録から切り取ったものである。

C.2 Evaluation Prompts

我々は、定量的および定性的比較に使用したStyleDrop論文[51]から収集した23の評価プロンプトを提示する：

•

{style prompt}スタイルのシドニーのオペラハウス
•

{style prompt}スタイルの、編み物の帽子をかぶってラップトップを理解しようとしているふわふわの赤ちゃんナマケモノ、クローズアップ
•

{style prompt}スタイルのゴールデンゲートブリッジ
•

{style prompt}スタイルの文字「G」
•

{style prompt}スタイルのスノーボードに乗る男性
•

{style prompt}スタイルの竹を食べるパンダ
•

{style prompt}スタイルのフレンドリーなロボット
•

{style prompt}スタイルの赤ちゃんペンギン
•

{style prompt}スタイルのヘラジカ
•

{style prompt}スタイルのタオル
•

{style prompt}スタイルのエスプレッソマシン
•

{style prompt}スタイルのアボカド
•

{style prompt}スタイルの王冠
•

{style prompt}スタイルのバナナ
•

{style prompt}スタイルのベンチ
•

{style prompt}スタイルのボート
•

{style prompt}スタイルの蝶
•

{style prompt}スタイルのF1レースカー
•

{style prompt}スタイルのクリスマスツリー
•

{style prompt}スタイルの牛
•

{style prompt}スタイルの帽子
•

{style prompt}スタイルのピアノ
•

{style prompt}スタイルの木造キャビン

C.3 User Study

本節では、我々のユーザー調査の設定に関する詳細情報を提供する。我々のユーザー調査は、スタイル駆動型画像生成の2つの主要な目的であるスタイルの一致性とテキストの一致性に関する人間の選好を測定することを目的としている。これらの選好を評価するために、我々は各目的について我々の手法と各ベースラインとのペアワイズ比較を実施する。参加者には参照画像、目標テキストプロンプト、および2つの生成画像（各手法から1つずつ）が提示され、目的をより良く満たす画像を選択するよう求められる。 150人の参加者からそれぞれ3つの回答を収集し、各比較について合計450の回答を得る。我々の質問票で使用した完全な指示は以下の通りである。

スタイルの一致性の目的について、

•

参照画像と2つの機械生成画像が与えられた場合、各ペアについて、どちらの機械生成出力が参照画像のスタイルにより良く一致しているかを選択してください。
•

色彩、レイアウト、照明、筆致を含むスタイルのみに注目してください。
•

選好を判断するのが難しい場合は、「判断できない / 両方同等」を選択してください。

テキストの一致性の目的について、

•

参照画像と2つの機械生成画像が与えられた場合、各ペアについて、どちらの機械生成出力が目標テキストにより良く一致しているかを選択してください。
•

参照画像を考慮せず、テキストのみに注目してください。
•

選好を判断するのが難しい場合は、「判断できない / 両方同等」を選択してください。

C.4 Implementation

再現性を確保するため、我々はStyle-friendly SNRサンプラーの疑似コード実装を図 S11に、そしてMM-DiTの訓練のためのLoRA [19]パラメータの追加を図 S12に提供している。

図S11: Style-friendly SNRサンプラーのPyTorch実装。

図S12: LoRA統合のPyTorch実装。

Appendix D Limitations and Discussions

Style Prompt Design.

図S13に示すように、ファインチューニング中に異なるスタイルプロンプトを使用すると、水彩画の要素（1行目）の代わりに、子供らしい要素や背景の建築物（2行目）など、異なるスタイル的特徴が強調される可能性があり、これはユーザーの焦点と一致しない場合がある。ユーザーは、スタイルプロンプトの変更が異なる結果をもたらす可能性があることに注意すべきである。それにもかかわらず、我々のアプローチは、ユーザーが提供するスタイルプロンプトに対して効果的なスタイル学習を実証している。

Computational Cost.

拡散モデルのファインチューニングは、スタイルの整合性を達成するための最も有望なアプローチであり続けているが、それには多大な計算コストが伴う。新しいスタイルのファインチューニングには通常約300回のファインチューニングステップが必要であり、拡散モデルの反復的な性質により、推論時に1枚の画像を生成するのに数秒かかる可能性がある。我々は、将来の研究において、ゼロショットモデル[61]のトレーニング中に我々のStyle-friendly SNRサンプラーを適用したり、Consistency Models[56]やAdversarial Diffusion Distillationモデル[48]などのより高速な推論速度を提供するモデルと統合したりすることを予想している。これらの発展により、トレーニングと推論の両方の時間が短縮され、スタイル駆動型の生成がより身近で効率的になる可能性がある。

Appendix E Broader Impact

我々のStyle-friendly SNRサンプラーは、拡散モデルが様々なスタイル参照の微調整において成功を収めることを可能にする。この進歩により、拡散モデルはデジタルアートのプレビューワーとして効果的に機能し、アーティストや専門家でないユーザーにとって創造的プロセスを簡素化する利点をもたらす。しかしながら、微調整のために参照画像を使用する際には、著作権に注意を払うことが重要であると我々は指摘する。実践者は、参照画像を使用する許可を確実に得るべきである。

Style-Friendly SNR Sampler for Style-Driven Generation

Abstract

1 Introduction

2 Training Diffusion Models

2.1 Diffusion Process

2.2 Unified Loss Function

2.3 SNR Samplers

3 Method

3.1 Observations

Diffusion Models Struggle to Capture Styles.

Styles Emerge at Higher Noise Levels.

3.2 Style-Friendly SNR Sampler

3.3 Trainable Parameters of MM-DiT

4 Experiments

4.1 Analysis of Style-Friendly SNR Sampler

Effect of Varying 𝝁𝝁\bm{\mu}bold_italic_μ.

Effect of Varying 𝝈𝝈\bm{\sigma}bold_italic_σ.

Effect of Varying Rank.

4.2 Qualitative Results

4.3 Quantitative Results

4.4 Applications

5 Related Works

5.1 Diffusion Models

5.2 Style-Driven Generation

6 Conclusion

Acknowledgement

References

Appendix

Appendix A Additional Results

A.1 Qualitative Results

Additional Samples.

Additional Comparison.

Effect of Varying μ𝜇\muitalic_μ on Object References.

SD3.5 Samples.

A.2 Quantitative Results

CLIP Scores.

Effectiveness Compared to Increasing Model Capacity.

Trainable Parameters.

A.3 Additional Observations

Styles Emerge at Higher Noise Levels.

Probability Distribution of Timestep.

Appendix B Baselines

B.1 Direct Consistency Optimization

B.2 IP-Adapter

B.3 RB-Modulation

B.4 Style-Aligned

B.5 Offset Noise

Appendix C Experimental Details

C.1 Style Prompts

C.2 Evaluation Prompts

C.3 User Study

C.4 Implementation

Appendix D Limitations and Discussions

Style Prompt Design.

Computational Cost.

Appendix E Broader Impact

Effect of Varying $\bm{\mu}$ .

Effect of Varying $\bm{\sigma}$ .

Effect of Varying $\mu$ on Object References.