JaLMS
最新の AI 研究を日本語で解読

Omegance: A Single Parameter for Various Granularities in
Diffusion-Based Synthesis

Xinyu Hou  Zongsheng Yue  Xiaoming Li  Chen Change Loy
S-Lab, Nanyang Technological University
[email protected]  [email protected]  [email protected]  [email protected]
Abstract

本稿では、拡散ベースの合成における粒度を効果的に制御するための単一のパラメータω𝜔\omegaitalic_ωを導入する。このパラメータは、拡散モデルの逆過程におけるノイズ除去ステップに組み込まれる。我々のアプローチは、モデルの再訓練、アーキテクチャの変更、または推論時の追加の計算オーバーヘッドを必要とせず、生成される出力の詳細レベルを正確に制御することを可能にする。さらに、空間マスクや異なるω𝜔\omegaitalic_ω値を持つノイズ除去スケジュールを適用することで、領域特定または時間ステップ特定の粒度制御を達成できる。 制御信号や参照画像からの画像構成に関する事前知識は、特定のオブジェクトに対する粒度制御のための精密なω𝜔\omegaitalic_ωマスクの作成をさらに促進する。 微妙な詳細の変化を制御するパラメータの役割を強調するため、この技術は「オメガ」と「ニュアンス」を組み合わせたOmeganceと名付けられた。我々の手法は、様々な画像および動画合成タスクにおいて印象的な性能を示し、高度な拡散モデルにも適応可能である。コードはhttps://github.com/itsmag11/Omeganceで入手可能である。

1 Introduction

拡散モデルは、学習された反復プロセスを通じてランダムノイズを一貫性のある視覚的コンテンツへと段階的に変換することで、画像および芸術作品の生成において強力なツールとして台頭してきた。 拡散モデルは特に高品質で多様な結果を生成する上で効果的である。

アーティストやデザイナーは、しばしば作品のどこにどのように詳細を適用するかを戦略的に決定する必要がある。作品や写真における詳細のレベルは、その視覚的調和、秩序、明瞭さを形作り、鑑賞者の体験と解釈に影響を与えながら、彼らの焦点を導く[2]。 バニラの拡散モデルは、本質的に画像の特定の領域における粒度レベルの直接的で微調整された制御を提供しない。モデルは異なる画像間で様々な詳細レベルを生成できるが、その均一な生成プロセスは同一画像内の異なる部分でどの程度の詳細をレンダリングするかを容易に操作することを許容しない。画像における詳細のレベルは、テキストのみで伝えることが困難—あるいは不可能—な場合がある。例えば、主要な被写体の高い詳細を保持しながら背景の詳細を減らすこと(図1(b)の右側のケースを参照)は単純ではない。

本稿では、各ノイズ除去ステップ中に予測されたノイズをスケーリングすることで、拡散モデル出力の詳細レベルを制御するための新規かつ「驚くほど」単純なアプローチを探求する。我々の手法は、ネットワークアーキテクチャやタイムステップスケジューリングの変更を必要としない。代わりに、各ステップで除去されるノイズの分散を動的に調整することで、視覚的出力の粒度に影響を与えられることを実証する。この単純かつ柔軟な技術により、概念密度とオブジェクトテクスチャの調整が可能となり、ユーザーに合成されたコンテンツのより繊細な制御を提供する。

我々のアプローチは、ノイズのスケーリングが単一のパラメータomegaω𝜔\omegaitalic_ωで達成されるため魅力的である。ω𝜔\omegaitalic_ωを減少させると、除去されるノイズが少なくなり、ネットワークはより複雑なシーンとより豊かなテクスチャを推論するようになる。逆に、ω𝜔\omegaitalic_ωを増加させるとより多くのノイズが除去され、より滑らかで単純な出力につながる。 我々のomega制御を空間的に全体的に、そして時間的に一貫して適用することで、図1(a)に示すように、均一により豊かな、あるいはより滑らかな結果を得ることができるが、空間的にも時間的にもより精密な制御を実装することができる。(1) 単一の画像内でも粒度の要求が異なる場合がある。例えば、豊かなテクスチャや複雑な視覚要素を必要とする領域にはより細かい粒度の詳細が、滑らかな遷移や高レベルの品質を要求する領域にはより粗い粒度の詳細が必要となる。そこで、omegaマスクを使用して、異なる空間領域にわたって望ましい効果をカスタマイズすることができる。異なる空間効果の例を図1(b)に示す。マスクは、ユーザーが提供するストロークから作成することも、特定のガイド条件を使用して生成することもできる。(2) 物体の形状や画像のレイアウトが通常初期段階で現れ、細部が後期段階で現れる拡散ノイズ除去ダイナミクス[10, 24]とより良く整合させるために、omegaスケジュールを実装し、時間とともにomega値を調整してレイアウトと詳細なテクスチャに対する効果を変化させることができる。例を図1(c)に示す。

我々のOmegance技術は、段階的な拡散除去プロセスに従う限り、特定のネットワークアーキテクチャや除去スケジューラに限定されるものではない。広範な実験により、Omeganceが様々な拡散ベースの合成タスクに適応できることが実証されている。評価されたモデルには、テキストから画像生成のためのStable Diffusion [16, 5] とFLUX [13]、画像から画像生成のためのSDEdit [15] とControlNet [28]、画像インペインティングのためのSDXL-Inpainting [16]、実画像編集のためのReNoise [7]、そしてテキストから動画生成のためのLatte [14] とAnimateDiff [8] が含まれる。いくつかの例を図 1 に示す。上記のすべてのアプリケーションにおいて、生成された結果に対する効果的でスムーズかつ微妙な制御が観察され、我々の単一パラメータによる粒度調整の有効性が実証されている。要約すると、我々の貢献は以下の通りである:

  • 我々は、拡散ベースのモデルにおいて生成されるコンテンツの粒度を単一パラメータで制御可能にする、シンプルかつ効果的なオメガスケーリング技術を提案する。我々の手法は学習不要であり、推論コストの増加もなく、ネットワークアーキテクチャに依存しない。

  • 我々は、空間的に適応的なオメガマスクと時間的に動的なオメガスケジュールの両方を導入し、生成された画像や動画内での局所的かつ段階的な粒度制御を可能にする。

  • 我々は、広範な画像および動画合成タスクにおけるオメガスケーリングの適用可能性を実証する。

2 Related Work

拡散モデルに基づく編集。 これまでの拡散モデルに基づく編集手法の多くは、CLIPの視覚-言語連携能力を活用して、言語ガイダンスに従って視覚コンテンツを編集することに焦点を当てている[17]。Prompt-to-Prompt[9]とInstructPix2Pix[4]は、生成プロセス中にテキストプロンプトと視覚特徴を整列させる上で重要な役割を果たすクロスアテンションマップを修正することで、出力内の概念を編集する。SEGA[3]は、ノイズ除去中にターゲットプロンプトの意味的ガイダンスに従って結果を生成する。Wu[25]は、ターゲット属性を含むプロンプトと含まないプロンプトのテキスト埋め込みを混合することで、元のコンテンツを保持しながら望ましい属性に整列できることを見出した。さらに、SDEdit[15]は編集された画像にノイズを追加し、拡散事前分布を利用して編集部分を自然な画像として合理化する。しかしながら、これらの従来手法は、編集対象が言語で明示的に表現できない場合や元の画像で示されていない場合には効果が低く、出力の粒度を柔軟に編集する方法を提供できていない。

生成品質の向上。 拡散モデルによって生成されるコンテンツの品質を向上させるための取り組みも行われてきた。いくつかの研究では、生成品質を改善するためにClassifier-Free Guidance (CFG)の修正を探求している[11, 1, 20]。SAG [11]とPAG [1]は、CFGのnull-text予測を自己注意マップまたは摂動を加えた自己注意マップに置き換えることで、高品質かつトレーニングと条件に依存しない生成を可能にしている。Sadat [20]は、CFGに類似したガイダンス戦略を提案しており、クリーンなテキスト埋め込みと摂動を加えたテキスト埋め込みの間に適用することで、生成品質を向上させている。これらの手法は全体的な品質を効果的に向上させるが、生成された出力の詳細を空間的に細かく制御する能力が欠けている。 別の研究の流れでは、人間のフィードバックからの強化学習(RLHF)を活用して、人間の嗜好に合わせたより高品質な結果を得るために拡散モデルを微調整している[26, 6, 27]。Xu [26]は、汎用的なテキストから画像への人間の嗜好報酬モデルを提示し、これを用いて人間の嗜好スコアに関して拡散モデルを微調整している。同様のアプローチが並行して行われた研究DPOK [6]でも採用されている。さらに、Yang [27]は直接選好最適化(DPO)を採用し、別個の報酬モデルを用いずに人間のフィードバックに合わせて拡散モデルを微調整している。これらの手法は人間の嗜好を反映した出力を生成するが、コストのかかるモデルの微調整を必要とし、出力の粒度を柔軟に制御することができない。 最近、FreeU [22]が拡散モデルの出力品質を向上させるために導入された。これは特に、ノイズ除去プロセスにおけるU-Netアーキテクチャを対象としている。この手法は、推論時に2つのスケーリング係数を共同で調整することを含む:1つはバックボーン特徴を増幅するためのもの、もう1つはスキップ接続の影響を調整して、過度の平滑化や高周波要素の劣化を避けつつ詳細をより良く保持するためのものである。 FreeUは顕著な品質向上を達成しているが、U-Netアーキテクチャに密接に結びついており、その2つのスケーリングパラメータの慎重な調整を必要とする。 対照的に、Omeganceはより単純で柔軟性が高く、アーキテクチャに依存しないアプローチを提供し、拡散モデルの詳細レベルを制御することができる。

3 Methodology

Refer to caption
図2: 中間潜在変数ztsubscriptsuperscript𝑧𝑡z^{\prime}_{t}italic_z start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの周波数スペクトルに対するOmeganceの効果。凡例の推論ステップはタイムステップt𝑡titalic_tと逆相関している。元のノイズ除去プロセス(a)では、ノイズ除去が後期段階に進むにつれて、高周波成分が徐々に減少し、低周波成分がより顕著になる。Omeganceを用いると、ω𝜔\omegaitalic_ωを増加させることで高周波成分のより積極的な除去が行われ、(b)に示されている。逆に、(c)に描かれているように、ω𝜔\omegaitalic_ωを減少させると高周波成分の除去が抑制される。

3.1 Diffusion Model Preliminaries

拡散モデルは、サンプルに加えられたノイズを反復的に予測することで、リアルな画像を合成する強力な生成モデルである。これらは2つのプロセスで構成される:順方向プロセスでは、x0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTから直接デコードされた初期潜在変数z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにガウシアンノイズが徐々に加えられる。Song [23]に従い、我々はこのプロセスを以下のように定式化する:

zt=αtz0+1αtϵ,ϵ𝒩(0,1)formulae-sequencesubscript𝑧𝑡subscript𝛼𝑡subscript𝑧01subscript𝛼𝑡italic-ϵsimilar-toitalic-ϵ𝒩01z_{t}=\sqrt{\alpha_{t}}z_{0}+\sqrt{1-\alpha_{t}}\epsilon,\quad\epsilon\sim% \mathcal{N}(0,1)italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ , italic_ϵ ∼ caligraphic_N ( 0 , 1 ) (1)

ここで、ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTはタイムステップt𝑡titalic_tにおけるノイズの加わった潜在変数である。ノイズスケジュールαtsubscript𝛼𝑡\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT(1βt)1subscript𝛽𝑡(1-\beta_{t})( 1 - italic_β start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT )の累積積として定義される:αt=i=1t(1βi)subscript𝛼𝑡superscriptsubscriptproduct𝑖1𝑡1subscript𝛽𝑖\alpha_{t}=\prod_{i=1}^{t}(1-\beta_{i})italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ∏ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( 1 - italic_β start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT )。ここで、βtsubscript𝛽𝑡\beta_{t}italic_β start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは各タイムステップで加えられるノイズの量を制御する事前定義された分散スケジュールである[10]。逆方向プロセスでは、純粋なガウシアンノイズが学習された除ノイズプロセスを通じて一貫した視覚コンテンツに変換される。除ノイズプロセスの一般的な表現は以下の通りである:

zt1=δtzt+ζtϵθ(zt,t)“direction pointing to z0subscript𝑧𝑡1subscript𝛿𝑡subscript𝑧𝑡subscriptsubscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡“direction pointing to z0z_{t-1}=\delta_{t}\cdot z_{t}+\underbrace{\zeta_{t}\cdot\epsilon_{\theta}(z_{t% },t)}_{\text{``direction pointing to $z_{0}$''}}italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + under⏟ start_ARG italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_ARG start_POSTSUBSCRIPT “direction pointing to italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT (2)

ここで、δtsubscript𝛿𝑡\delta_{t}italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTζtsubscript𝜁𝑡\zeta_{t}italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTは、特定のスケジューラに応じて変化する現在のノイズ信号とノイズ予測のスケーリング係数である(詳細は補足資料を参照)ϵθ(zt,t)subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡\epsilon_{\theta}(z_{t},t)italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t )はパラメータθ𝜃\thetaitalic_θを持つ除ノイズネットワークによる時間t𝑡titalic_tにおけるノイズ予測である。この式は反復的な除ノイズプロセスを特徴づけており、各ステップはよりノイズの多い潜在変数ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTからクリーンなz0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTに向かって徐々に移動し、よりノイズの少ない潜在変数zt1subscript𝑧𝑡1z_{t-1}italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTを得ることを目指している。

信号対雑音比。拡散モデルにおいて、信号対雑音比(SNR)は各タイムステップにおける元の画像コンテンツz0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTと加えられたガウシアンノイズϵitalic-ϵ\epsilonitalic_ϵのバランスを定義する上で重要な役割を果たす。式(1)より、SNRSNR\mathrm{SNR}roman_SNRは以下のように定義される:

SNR(t)=αt1αt.SNR𝑡subscript𝛼𝑡1subscript𝛼𝑡\mathrm{SNR}(t)=\frac{\alpha_{t}}{1-\alpha_{t}}.roman_SNR ( italic_t ) = divide start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG . (3)

t=0𝑡0t=0italic_t = 0のとき、SNR=1SNR1\mathrm{SNR}=1roman_SNR = 1となり、純粋な画像信号z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを示す。t𝑡titalic_tが増加するにつれて、SNRは00まで減少し、純粋なノイズzTsubscript𝑧𝑇z_{T}italic_z start_POSTSUBSCRIPT italic_T end_POSTSUBSCRIPTを示す。 除ノイズ過程において、 モデルは各タイムステップのSNRを順方向プロセスで定義されたSNRに徐々に合わせていく。 αtsubscript𝛼𝑡\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTはノイズスケジュールによって事前に定義されているため、従来の拡散モデルにおけるSNRは除ノイズプロセス全体を通じて固定されたままであり、各タイムステップでのノイズ量の制御に柔軟性が制限される。

除ノイズダイナミクス。拡散モデルにおいて、除ノイズダイナミクスは段階的な改善に従う[10, 24]:画像レイアウトや物体の形状などの広範な構造が初期段階で現れ、細かい詳細は後半のステップで現れる。このような挙動は、高周波の詳細が最初にノイズによって破壊され、低周波の広範な構造が最後に破壊される順方向拡散プロセスの性質を反映しており、除ノイズ時には逆の再構築が行われる。このようなダイナミクスは生成を安定させるだけでなく、異なるタイムステップにおける画像特徴の柔軟で階層的な制御を可能にする。

Refer to caption
図3: Omeganceのグローバルな効果。(最適な表示にはズームインしてください)

3.2 Omegance

我々はOmeganceを導入する。これは、逆拡散ステップにおける各ノイズ除去ステップでのノイズ予測をスケーリングするためにパラメータω𝜔\omegaitalic_ωを使用する。Omeganceを用いた単一のノイズ除去ステップの一般形式は以下のように定式化される:

zt1=δtzt+ζtϵθ(zt,t)ω“modified direction pointing to z0superscriptsubscript𝑧𝑡1subscript𝛿𝑡subscript𝑧𝑡subscriptsubscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝜔“modified direction pointing to z0z_{t-1}^{\prime}=\delta_{t}\cdot z_{t}+\underbrace{\zeta_{t}\cdot\epsilon_{% \theta}(z_{t},t)\cdot\omega}_{\text{``modified direction pointing to $z_{0}$''}}italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + under⏟ start_ARG italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ⋅ italic_ω end_ARG start_POSTSUBSCRIPT “modified direction pointing to italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT (4)

各ノイズ除去ステップにおけるノイズ予測は標準ガウスノイズ:ϵθ(zt,t)𝒩(0,1)similar-tosubscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝒩01\epsilon_{\theta}(z_{t},t)\sim\mathcal{N}(0,1)italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ∼ caligraphic_N ( 0 , 1 )であるため、スケーリング係数ω𝜔\omegaitalic_ωを乗じることで平均を0に保ちながら、分散をω2superscript𝜔2\omega^{2}italic_ω start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTに比例して調整する。 実際には、ω𝜔\omegaitalic_ωは、より細かい制御を可能にするために(,)(-\infty,\infty)( - ∞ , ∞ )の入力範囲を許容するようにリスケールされ、以下のように00を中心に再配置される:

ω=(ϖ)=L+UL1+ekϖ𝜔italic-ϖ𝐿𝑈𝐿1superscript𝑒𝑘italic-ϖ\omega=\mathcal{R}(\varpi)=L+\frac{U-L}{1+e^{-k\cdot\varpi}}italic_ω = caligraphic_R ( italic_ϖ ) = italic_L + divide start_ARG italic_U - italic_L end_ARG start_ARG 1 + italic_e start_POSTSUPERSCRIPT - italic_k ⋅ italic_ϖ end_POSTSUPERSCRIPT end_ARG (5)

ノイズ除去項に係数を導入するだけの単純な手法であるが、SNRと詳細生成への影響は調査に値する。DDIMスケジューラ[23]を例にとると、ノイズ除去中の修正されたSNRは以下のように定式化される(段階的な導出については補足資料を参照)

SNR(t1)=αt1[αt11αtαt+ω(αt1αt1αt11αtαt)]2SNRsuperscript𝑡1subscript𝛼𝑡1superscriptdelimited-[]subscript𝛼𝑡11subscript𝛼𝑡subscript𝛼𝑡𝜔subscript𝛼𝑡1subscript𝛼𝑡1subscript𝛼𝑡11subscript𝛼𝑡subscript𝛼𝑡2\begin{split}&\mathrm{SNR}(t-1)^{\prime}=\\ &\frac{\alpha_{t-1}}{\left[\frac{\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}}{\sqrt% {\alpha_{t}}}+\omega\left(\frac{\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}-\sqrt{% \alpha_{t-1}}\sqrt{1-\alpha_{t}}}{\sqrt{\alpha_{t}}}\right)\right]^{2}}\end{split}start_ROW start_CELL end_CELL start_CELL roman_SNR ( italic_t - 1 ) start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL divide start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG start_ARG [ divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG + italic_ω ( divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG - square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG ) ] start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG end_CELL end_ROW (6)

ここで、αt1αt1αt11αtsubscript𝛼𝑡1subscript𝛼𝑡1subscript𝛼𝑡11subscript𝛼𝑡\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}-\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG - square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARGαtsubscript𝛼𝑡\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの単調減少性により常に負である。

  • ω=1𝜔1\omega=1italic_ω = 1の場合、SNR(t1)=SNR(t1)SNRsuperscript𝑡1SNR𝑡1\mathrm{SNR}(t-1)^{\prime}=\mathrm{SNR}(t-1)roman_SNR ( italic_t - 1 ) start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = roman_SNR ( italic_t - 1 )となる。 Omeganceは式(2)の標準的なノイズ除去スケジュールを維持し、ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTから除去されるノイズの量を変更しない。SNRスケジュールは順方向プロセスと一致する。この設定は、元のノイズスケジュールの期待される粒度に合致する、画像全体にわたって標準的な詳細度とテクスチャを持つバランスの取れた出力を生成する。

  • ω<1𝜔1\omega<1italic_ω < 1の場合、SNR(t1)<SNR(t1)SNRsuperscript𝑡1SNR𝑡1\mathrm{SNR}(t-1)^{\prime}<\mathrm{SNR}(t-1)roman_SNR ( italic_t - 1 ) start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT < roman_SNR ( italic_t - 1 )となる。 ノイズ予測がスケールダウンされ、z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTに向けてのノイズ除去がより控えめになる。 したがって、潜在状態zt1subscriptsuperscript𝑧𝑡1z^{\prime}_{t-1}italic_z start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTは追加の高周波情報を保持する。これは図2(c)に示されている。 ノイズ成分が支配的になるため、モデルはこの残留ノイズを「正当化」し、より複雑な構造とより豊かなテクスチャを生成することで、出力の視覚的複雑性を高める。

  • ω>1𝜔1\omega>1italic_ω > 1の場合、SNR(t1)>SNR(t1)SNRsuperscript𝑡1SNR𝑡1\mathrm{SNR}(t-1)^{\prime}>\mathrm{SNR}(t-1)roman_SNR ( italic_t - 1 ) start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT > roman_SNR ( italic_t - 1 )となる。 ノイズ除去スケジュールがより積極的になる。このノイズ除去の増幅は、潜在zt1subscriptsuperscript𝑧𝑡1z^{\prime}_{t-1}italic_z start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTの高周波情報を減少させる。信号が支配的になるため、モデルは減少した残留ノイズをテクスチャと詳細を単純化する手がかりとして解釈し、よりスムーズで複雑さの少ない視覚的出力を生成する。

豊かな効果とスムーズな効果の両方が、ユーザーの意図に応じて望ましい場合がある。例えば、ω<1𝜔1\omega<1italic_ω < 1を設定すると詳細が強調され、市場のより賑やかな群衆、衣服デザインの複雑なパターン、砂や波のような要素の細かいテクスチャの生成に適している。一方、ω>1𝜔1\omega>1italic_ω > 1はよりスムーズで単純な視覚効果を生み出し、澄んだ空、穏やかな水面、ミニマリストデザインなど、簡素な美学が好まれるシーンに理想的である。この柔軟性により、ユーザーは特定の視覚的およびスタイル的目標に合わせて粒度を動的に調整することができる。

様々なスケジューラにおけるOmegance。 Omeganceは様々なノイズスケジューラに適用できる。以下に、いくつかの一般的なスケジューラに対する修正されたノイズ除去ステップの公式を示す。DDIM[23]とEuler離散[12]スケジューラでは、現在のステップϵθ(zt,t)subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡\epsilon_{\theta}(z_{t},t)italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t )で追加される標準ノイズが利用可能である(Eulerスケジューラでは、z𝑧zitalic_zの「導関数」を近似する)ため、平均を保持しながら分散を修正するために直接ω𝜔\omegaitalic_ωを適用できる。

(1) DDIMスケジューラ[23]

zt1=αt1(zt1αtϵθ(zt,t)𝝎αt)+1αt1ϵθ(zt,t)𝝎superscriptsubscript𝑧𝑡1subscript𝛼𝑡1subscript𝑧𝑡1subscript𝛼𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝝎subscript𝛼𝑡1subscript𝛼𝑡1subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝝎\begin{split}z_{t-1}^{\prime}&=\sqrt{\alpha_{t-1}}\left(\frac{z_{t}-\sqrt{1-% \alpha_{t}}\cdot\epsilon_{\theta}(z_{t},t)\cdot\boldsymbol{\omega}}{\sqrt{% \alpha_{t}}}\right)\\ &+\sqrt{1-\alpha_{t-1}}\cdot\epsilon_{\theta}(z_{t},t)\cdot\boldsymbol{\omega}% \end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL start_CELL = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ( divide start_ARG italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ⋅ bold_italic_ω end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG ) end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ⋅ bold_italic_ω end_CELL end_ROW (7)

(2) Euler離散スケジューラ[12]

zt1=zt+(σt+1σ^)ϵθ(zt,t)𝝎superscriptsubscript𝑧𝑡1subscript𝑧𝑡subscript𝜎𝑡1^𝜎subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝝎z_{t-1}^{\prime}=z_{t}+(\sigma_{t+1}-\hat{\sigma})\cdot\epsilon_{\theta}(z_{t}% ,t)\cdot\boldsymbol{\omega}italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + ( italic_σ start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT - over^ start_ARG italic_σ end_ARG ) ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ⋅ bold_italic_ω (8)

ここで、σ𝜎\sigmaitalic_σはKarras[12]のノイズレベルであり、σ^=σt(γ+1)^𝜎subscript𝜎𝑡𝛾1\hat{\sigma}=\sigma_{t}\cdot(\gamma+1)over^ start_ARG italic_σ end_ARG = italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ ( italic_γ + 1 )γ𝛾\gammaitalic_γσtsubscript𝜎𝑡\sigma_{t}italic_σ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTを摂動させる「churn」因子である場合である。

しかし、フローマッチングベースのスケジューラ[5]では、順方向プロセスはステップごとのノイズ追加スケジュールを必要としない連続変換を学習する:zt=(1t)z0+tϵsubscript𝑧𝑡1𝑡subscript𝑧0𝑡italic-ϵz_{t}=(1-t)z_{0}+t\epsilonitalic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ( 1 - italic_t ) italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_t italic_ϵ、ここでϵ𝒩(0,1)similar-toitalic-ϵ𝒩01\epsilon\sim\mathcal{N}(0,1)italic_ϵ ∼ caligraphic_N ( 0 , 1 )であり、これは式(1)とは若干異なる。逆プロセスでは、モデルはvθ(zt,t)=dztdt=ϵz0subscript𝑣𝜃subscript𝑧𝑡𝑡𝑑subscript𝑧𝑡𝑑𝑡italic-ϵsubscript𝑧0v_{\theta}(z_{t},t)=\frac{dz_{t}}{dt}=\epsilon-z_{0}italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) = divide start_ARG italic_d italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG start_ARG italic_d italic_t end_ARG = italic_ϵ - italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTを予測し、zt1=zt+dtvθ(zt,t)subscript𝑧𝑡1subscript𝑧𝑡𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡z_{t-1}=z_{t}+dt\cdot v_{\theta}(z_{t},t)italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT = italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t )で1ステップ前進する。ここで、dtvθ(zt,t)𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡dt\cdot v_{\theta}(z_{t},t)italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t )は一般式(2)のノイズ除去量を表すが、必ずしも標準ノイズではない。平均シフトを防ぐために、フローマッチングスケジューラではOmeganceを用いた追加の平均保持操作を適用する。

(3) フローマッチングスケジューラ[5]

m=𝔼[dtvθ(zt,t)]zt1=zt+[(dtvθ(zt,t)m)𝝎+m]𝑚𝔼delimited-[]𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡superscriptsubscript𝑧𝑡1subscript𝑧𝑡delimited-[]𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡𝑚𝝎𝑚\begin{split}m&=\mathbb{E}[dt\cdot v_{\theta}(z_{t},t)]\\ z_{t-1}^{\prime}&=z_{t}+[(dt\cdot v_{\theta}(z_{t},t)-m)\cdot\boldsymbol{% \omega}+m]\end{split}start_ROW start_CELL italic_m end_CELL start_CELL = blackboard_E [ italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) ] end_CELL end_ROW start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL start_CELL = italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + [ ( italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) - italic_m ) ⋅ bold_italic_ω + italic_m ] end_CELL end_ROW (9)
Refer to caption
図4: 異なるノイズ除去段階におけるOmeganceの効果。𝒮1(t)superscript𝒮1𝑡\mathcal{S}^{1}(t)caligraphic_S start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ( italic_t )𝒮2(t)superscript𝒮2𝑡\mathcal{S}^{2}(t)caligraphic_S start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ( italic_t )のスケジュールは、図1(c)の初期段階強化(左)と後期段階強化(右)のケースに対応する。画像レイアウトと細かい詳細への効果をより明確にするために、離散的なステップスケジュールが適用されている。

3.2.1 Omega Mask

オメガマスクωi,j=(i,j)subscript𝜔𝑖𝑗𝑖𝑗\omega_{i,j}=\mathcal{M}(i,j)italic_ω start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT = caligraphic_M ( italic_i , italic_j )は、ノイズ除去プロセス中に異なる領域が異なるω𝜔\omegaitalic_ω値を持つことを可能にすることで、単一画像内の粒度を空間的に変化させる制御を導入する。

\mathcal{M}caligraphic_MH×Wabsentsuperscriptsuperscript𝐻superscript𝑊\in\mathbb{R}^{H^{\prime}\times W^{\prime}}∈ blackboard_R start_POSTSUPERSCRIPT italic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT × italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_POSTSUPERSCRIPTのマスクであり、H=H/f,W=W/fformulae-sequencesuperscript𝐻𝐻𝑓superscript𝑊𝑊𝑓H^{\prime}=H/f,W^{\prime}=W/fitalic_H start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_H / italic_f , italic_W start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_W / italic_fはVAEのダウンサンプリング係数f𝑓fitalic_fによってスケーリングされた元の画像寸法H,W𝐻𝑊H,Witalic_H , italic_Wである。マスクは、ユーザーが提供するストローク、セグメンテーションマスク、またはポーズスケルトン、深度マップなどの制御信号から自動生成されたものから、図8に示すように離散的および連続的な方法で取得できる。

この空間的制御は、ノイズ除去プロセスの局所性を活用し、ある領域のω𝜔\omegaitalic_ωの調整が隣接領域のSNRSNR\mathrm{SNR}roman_SNRや視覚的特性に影響を与えないことを保証する。このような柔軟性は、単一画像内で領域特定の詳細制御を必要とするアプリケーションに有用であり、焦点領域での細かいテクスチャを可能にしながら、他の場所ではスムーズさを維持することができる。

3.2.2 Omega Schedule

オメガスケジュールωt=𝒮(t)subscript𝜔𝑡𝒮𝑡\omega_{t}=\mathcal{S}(t)italic_ω start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = caligraphic_S ( italic_t )は、ノイズ除去プロセスの異なる段階でω𝜔\omegaitalic_ω値を動的に調整することにより、粒度を制御するメカニズムを提供する。逆拡散プロセスの特定の段階でω𝜔\omegaitalic_ωを導入することで、オメガスケジュールは生成される画像の広範なレイアウトと細かい詳細の両方に対して標的を絞った影響を可能にする。この時間的制御はノイズ除去のダイナミクスに合致している:初期のノイズ除去段階は主に一般的な構造とレイアウトを再構築し、後期の段階ではより細かい詳細を洗練する。 異なるノイズ除去段階でオメガを適用する効果は図4に示されている。 レイアウト形成の初期段階は全体のスケジュールのごく一部、通常50ステップのノイズ除去プロセスの最初の10ステップ以内(τ10𝜏10\tau\approx 10italic_τ ≈ 10T=50𝑇50T=50italic_T = 50の場合)を占めるに過ぎないことに注意が必要である。これは、レイアウト情報が順方向プロセスの最後の数ステップでのみ破壊されるという事実による。 より多くのスケジュールとその効果は図6に視覚化されている。 オメガスケジュールは画像合成の段階特有の制御を可能にし、構図と詳細の両方の微妙な操作を可能にする。この柔軟性は、ノイズ

4 Experiments

我々は、Stable Diffusion XL (SDXL) [16]、RealVisXL-V5.0 [21]、Stable Diffusion 3 (SD3) [5]、FLUX [13]、FreeU [22]、SDEdit [15]、ContolNet [28]、ReNoise [7]、SDXL-Inpainting [16]、Latte [14]、AnimateDiff [8]を含む様々な生成モデルとアプリケーションにおいて、Omeganceの有効性を検証する。これらの手法の実装は、Hugging FaceのDiffusersリポジトリ111https://github.com/huggingface/diffusersに基づいている。なお、純粋にテキストガイドによる手法では、出力構成に関する事前知識がないため、オメガマスク実験は除外していることに留意されたい。

Refer to caption
図8: ControlNetの結果におけるマスクベースのOmeganceの空間的効果。 (最適な表示にはズームインしてください)
Refer to caption
図9: ReNoise反転結果におけるマスクベースのOmeganceの空間的効果。(最適な表示にはズームインしてください)
Refer to caption
図10: 画像インペインティングタスクにおけるOmeganceの効果。(最適な表示にはズームインしてください)

4.1 Text-to-Image Generation

グローバル効果。 Omeganceを空間次元全体に均一に、そして時間的に一貫して適用すると、出力のレイアウトと細部の両方に影響を与えるグローバルな粒度の変化が生じる。より多くの定性的結果は図3に示されている。

粒度制御を提供することに加えて、Omeganceは時折生成された出力を向上させることもある。これは図5に示されている。SDXL[16]のような低品質モデルでは、Omeganceの詳細抑制が人体の部分、特に指や腕のような複雑な領域のアーティファクトに効果的に対処する。一方、FLUX[13]のような過度に平滑化された結果を生成する傾向のある高品質モデルでは、Omeganceの詳細強化が細かいテクスチャや複雑な詳細を復元することでリアリズムを向上させる。

我々は、Omeganceの粒度制御の効果と出力品質への影響を評価するために、102人の参加者を対象に2部構成のユーザー調査を実施した(詳細は補足資料を参照)。パート1では、参加者はOmeganceの有無による3つの画像を粒度に基づいてランク付けするよう求められた。平均ランク精度は、Omeganceの粒度制御の効果を反映している。パート2では、参加者はOmeganceの有無で生成されたペアから高品質な結果を選択し、Omeganceを好む、または同等の品質を主張する投票の割合を報告する。表1の結果は、Omeganceがベースモデルの品質を低下させることなく効果的な粒度制御を達成していることを示している。

Average Rank Accuracy Output Quality
Omegance 93.94% 81.98%
表1: Omeganceの粒度制御効果と出力品質に関するユーザー調査の結果。

オメガスケジュール。我々は図4に2つの異なるオメガスケジュールを示し、その効果を図1(c)に示す。出力のレイアウトと細部の粒度を同時に制御するオメガスケジュールの効果をさらに実証するために、図6により連続的なスケジュールを示す。与えられたケースでは、レイアウトの複雑さは一般的にシャレーの構成によって反映され、細部の豊かさは祭りの装飾や雪の中の足跡によって反映される。

Refer to caption
図11: テキストから動画生成結果におけるOmeganceの効果。(最適な表示にはズームインしてください)

4.2 Image-to-Image Generation

画像間タスクにおいて、参照入力や構造的ガイダンスからの画像構成に関する事前知識により、オメガマスクを選択的に適用してOmeganceを効果的に使用することが可能となる。特定の領域にω𝜔\omegaitalic_ω値を割り当てることで、テクスチャの豊かさと滑らかさを正確に制御し、一部の領域では詳細を強調しながら、他の領域では簡略化することができる。選択されていない領域は明示的に制約されていないにもかかわらず、入力の一貫性を維持するために最小限の変更しか受けないことは注目に値する。これは我々のオメガマスクによる正確な領域ベースの制御を示している。本稿を通じて、すべてのマスク表記において、赤は詳細の強調を、青は詳細の抑制を示している。

SDEdit. SDEdit [15]を使用した画像間編集では、既製のセマンティックセグメンテーションツールであるSAM2 [18]を使用して入力画像のセグメンテーションマスクを生成し、特定のセグメンテーション領域にオメガマスクを適用することを可能にしている。結果は図7に示されている。

ControlNet. ControlNet [28]にオメガマスクを適用した結果を図8に示す。ControlNetの制御信号を用いることで、関心領域を指定するデフォルトマスクを生成できる。主要キャラクターの位置とポーズを推論するポーズ信号の場合、骨格に拡張畳み込みを適用してデフォルトのキャラクターマスクを得る。前景と背景の情報を伝える深度信号の場合、連続的な深度値を使用してマスク内に滑らかな深度方向の遷移を作成できる。あるいは、ユーザーが提供するストロークからカスタムマスクを生成することも常に可能であり、これにより詳細の粒度をより柔軟かつ直感的に制御できる。我々はキャニー信号にカスタムマスクを使用している。

実画像編集. Omeganceは、実画像反転タスクにおいても空間的に適用して、特定のオブジェクトの粒度編集を達成することができる。マスクはセグメンテーションツールまたはユーザーが提供するストロークのいずれかから取得できる。ReNoise反転 [7]を使用した結果を図9に示す。

画像インペインティング. 我々はさらにOmeganceの使用を画像インペインティングタスクに一般化した。図10はSDXL [16]を使用して画像インペインティングを実行した結果を示している。

4.3 Text-to-Video Generation

Omeganceの粒度制御能力はテキストから動画への生成タスクにも一般化できる。実験はLatte [14]とAnimateDiff [8]を用いて行われた。 図11(a)では、"ω𝜔\omegaitalic_ω increasing"(詳細の抑制)によって背景がより単純になり、テクスチャがより滑らかになる一方、"ω𝜔\omegaitalic_ω decreasing"(詳細の強調)はより複雑な背景とシャープなテクスチャに対応している。 さらに、現在のテキストから動画への生成技術では、出力に視覚的なアーティファクトが生じることがしばしばある。これは図11(b)の1行目に示されており、パンダのギターが左側で歪んでいたり、空に意図しないフロー効果が現れたりしている。Omeganceを適用することで、詳細の強調と抑制の効果を通じて、上記のアーティファクトを効果的に解決できることが、図11(b)の2行目に示されている。

5 Conclusion and Limitation

我々は、Omeganceという単一パラメータの簡素yet効果的な手法を導入した。これは拡散モデルの出力における粒度を制御し、レイアウトの複雑さやテクスチャの豊かさに対して細かな空間的・時間的調整を可能にするものである。本手法は訓練不要で、アーキテクチャに依存せず、様々な拡散ベースのタスクにシームレスに統合できる。 広範な実験により、Omeganceがテキストから画像、画像から画像、テキストから動画生成の結果において、詳細度を制御する能力を持つことが実証された。 Omeganceは微妙な粒度操作に優れており、時にはアーティファクトを修正したり現実感を向上させたりすることができるが、基本モデルの生成品質そのものを本質的に改善するものではなく、これが限界として残る。 それにもかかわらず、本稿は制御可能でユーザー主導のコンテンツ生成を進展させ、実生活における拡散ベースの合成の実用的応用を拡大する上で価値があると我々は考える。

References

  • Ahn et al. [2024] Donghoon Ahn, Hyoungwon Cho, Jaewon Min, Wooseok Jang, Jungwoo Kim, SeonHwa Kim, Hyun Hee Park, Kyong Hwan Jin, and Seungryong Kim. Self-rectifying diffusion sampling with perturbed-attention guidance. In ECCV, 2024.
  • Arnheim [2020] Rudolf Arnheim. Art and Visual Perception. University of California Press, Berkeley, CA, 2nd, rev. and exp. ed., reprint 2020 edition, 2020.
  • Brack et al. [2023] Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski, and Kristian Kersting. SEGA: Instructing text-to-image models using semantic guidance. In NeurIPS, 2023.
  • Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. InstructPix2Pix: Learning to follow image editing instructions. In CVPR, 2023.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, and Robin Rombach. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
  • Fan et al. [2023] Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. DPOK: Reinforcement learning for fine-tuning text-to-image diffusion models. In NeurIPS, 2023.
  • Garibi et al. [2024] Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or. ReNoise: Real image inversion through iterative noising. In ECCV, 2024.
  • Guo et al. [2024] Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, and Bo Dai. AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning. In ICLR, 2024.
  • Hertz et al. [2023] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-or. Prompt-to-prompt image editing with cross-attention control. In ICLR, 2023.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
  • Hong et al. [2023] Susung Hong, Gyuseong Lee, Wooseok Jang, and Seungryong Kim. Improving sample quality of diffusion models using self-attention guidance. In ICCV, 2023.
  • Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. In NeurIPS, 2022.
  • Labs [2023] Black Forest Labs. FLUX. https://github.com/black-forest-labs/flux, 2023.
  • Ma et al. [2024] Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, and Yu Qiao. Latte: Latent diffusion transformer for video generation. arXiv preprint arXiv:2401.03048, 2024.
  • Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
  • Podell et al. [2024] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. SDXL: Improving latent diffusion models for high-resolution image synthesis. In ICLR, 2024.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
  • Ravi et al. [2024] Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, and Christoph Feichtenhofer. SAM 2: Segment anything in images and videos. arXiv preprint arXiv:2408.00714, 2024.
  • Rombach et al. [2021] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2021.
  • Sadat et al. [2024] Seyedmorteza Sadat, Manuel Kansy, Otmar Hilliges, and Romann M. Weber. No training, no problem: Rethinking classifier-free guidance for diffusion models. arXiv preprint arXiv:2407.02687, 2024.
  • SG161222 [2024] SG161222. RealVisXL V5.0. https://civitai.com/models/139562/realvisxl-v50, 2024.
  • Si et al. [2024] Chenyang Si, Ziqi Huang, Yuming Jiang, and Ziwei Liu. FreeU: Free lunch in diffusion U-Net. In CVPR, 2024.
  • Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021a.
  • Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2021b.
  • Wu et al. [2023] Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, and Shiyu Chang. Uncovering the disentanglement capability in text-to-image diffusion models. In CVPR, 2023.
  • Xu et al. [2023] Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. ImageReward: Learning and evaluating human preferences for text-to-image generation. In NeurIPS, 2023.
  • Yang et al. [2023] Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, and Xiu Li. Using human feedback to fine-tune diffusion models without any reward model. In CVPR, 2023.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.

Appendix A Representations of δtsubscript𝛿𝑡\delta_{t}italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT and ζtsubscript𝜁𝑡\zeta_{t}italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT

式2(以下に再掲)は、拡散逆過程における1つのデノイジングステップの一般的な表現を提供している。我々は、異なるデノイジングスケジューラをこの一般的な表現に変換する方法の詳細な公式を提供する。

zt1=δtzt+ζtϵθ(zt,t)“direction pointing to z0subscript𝑧𝑡1subscript𝛿𝑡subscript𝑧𝑡subscriptsubscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡“direction pointing to z0z_{t-1}=\delta_{t}\cdot z_{t}+\underbrace{\zeta_{t}\cdot\epsilon_{\theta}(z_{t% },t)}_{\text{``direction pointing to $z_{0}$''}}italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + under⏟ start_ARG italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_ARG start_POSTSUBSCRIPT “direction pointing to italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT

(1) DDIMスケジューラ [23]

zt1=αt1zt1αtϵθ(t)(zt)αt“predicted z0+1αt1ϵθ(t)(zt)“direction pointing to zt=δtzt+ζtϵθ(zt,t)subscript𝑧𝑡1subscript𝛼𝑡1subscriptsubscript𝑧𝑡1subscript𝛼𝑡superscriptsubscriptitalic-ϵ𝜃𝑡subscript𝑧𝑡subscript𝛼𝑡“predicted z0subscript1subscript𝛼𝑡1superscriptsubscriptitalic-ϵ𝜃𝑡subscript𝑧𝑡“direction pointing to ztsubscript𝛿𝑡subscript𝑧𝑡subscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡\begin{split}z_{t-1}&=\sqrt{\alpha_{t-1}}\underbrace{\frac{z_{t}-\sqrt{1-% \alpha_{t}}\epsilon_{\theta}^{(t)}(z_{t})}{\sqrt{\alpha_{t}}}}_{\text{``% predicted $z_{0}$''}}+\underbrace{\sqrt{1-\alpha_{t-1}}\cdot\epsilon_{\theta}^% {(t)}(z_{t})}_{\text{``direction pointing to $z_{t}$''}}\\ &=\delta_{t}\cdot z_{t}+\zeta_{t}\cdot\epsilon_{\theta}(z_{t},t)\end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL start_CELL = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG under⏟ start_ARG divide start_ARG italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG end_ARG start_POSTSUBSCRIPT “predicted italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT + under⏟ start_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_POSTSUBSCRIPT “direction pointing to italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW

ここで、

δt=αt1αtζt=αt11αtαt+1αt1subscript𝛿𝑡subscript𝛼𝑡1subscript𝛼𝑡subscript𝜁𝑡subscript𝛼𝑡11subscript𝛼𝑡subscript𝛼𝑡1subscript𝛼𝑡1\begin{split}\delta_{t}&=\frac{\sqrt{\alpha_{t-1}}}{\sqrt{\alpha_{t}}}\\ \zeta_{t}&=-\sqrt{\alpha_{t-1}}\cdot\frac{\sqrt{1-\alpha_{t}}}{\sqrt{\alpha_{t% }}}+\sqrt{1-\alpha_{t-1}}\end{split}start_ROW start_CELL italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG end_CELL end_ROW start_ROW start_CELL italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = - square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ⋅ divide start_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_CELL end_ROW

(2) オイラー離散スケジューラ [12]

zt1=zt+(σt+1σ^)ϵθ(zt,t)=δtzt+ζtϵθ(zt,t)subscript𝑧𝑡1subscript𝑧𝑡subscript𝜎𝑡1^𝜎subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡subscript𝛿𝑡subscript𝑧𝑡subscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡\begin{split}z_{t-1}&=z_{t}+(\sigma_{t+1}-\hat{\sigma})\cdot\epsilon_{\theta}(% z_{t},t)\\ &=\delta_{t}\cdot z_{t}+\zeta_{t}\cdot\epsilon_{\theta}(z_{t},t)\end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL start_CELL = italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + ( italic_σ start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT - over^ start_ARG italic_σ end_ARG ) ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW

ここで、

δt=1ζt=σt+1σ^subscript𝛿𝑡1subscript𝜁𝑡subscript𝜎𝑡1^𝜎\begin{split}\delta_{t}&=1\\ \zeta_{t}&=\sigma_{t+1}-\hat{\sigma}\end{split}start_ROW start_CELL italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = 1 end_CELL end_ROW start_ROW start_CELL italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = italic_σ start_POSTSUBSCRIPT italic_t + 1 end_POSTSUBSCRIPT - over^ start_ARG italic_σ end_ARG end_CELL end_ROW

(3) フローマッチングスケジューラ [5]

zt1=zt+dtvθ(zt,t)=δtzt+ζtϵθ(zt,t)subscript𝑧𝑡1subscript𝑧𝑡𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡subscript𝛿𝑡subscript𝑧𝑡subscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡\begin{split}z_{t-1}&=z_{t}+dt\cdot v_{\theta}(z_{t},t)\\ &=\delta_{t}\cdot z_{t}+\zeta_{t}\cdot\epsilon_{\theta}(z_{t},t)\end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL start_CELL = italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT + italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW

ここで、

δt=1ζtϵθ(zt,t)dtvθ(zt,t)subscript𝛿𝑡1subscript𝜁𝑡subscriptitalic-ϵ𝜃subscript𝑧𝑡𝑡𝑑𝑡subscript𝑣𝜃subscript𝑧𝑡𝑡\begin{split}\delta_{t}&=1\\ \zeta_{t}\cdot\epsilon_{\theta}(z_{t},t)&\approx dt\cdot v_{\theta}(z_{t},t)% \end{split}start_ROW start_CELL italic_δ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_CELL start_CELL = 1 end_CELL end_ROW start_ROW start_CELL italic_ζ start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL start_CELL ≈ italic_d italic_t ⋅ italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) end_CELL end_ROW

Appendix B Modified SNR Derivations

DDIMノイズ除去プロセスにおいて、

zt1=αt1zt1αtϵθαt“predicted z0+1αt1ϵθ(t)(zt)“direction pointing to ztαt1z0^+1αt1ϵθ^subscript𝑧𝑡1subscript𝛼𝑡1subscriptsubscript𝑧𝑡1subscript𝛼𝑡subscriptitalic-ϵ𝜃subscript𝛼𝑡“predicted z0subscript1subscript𝛼𝑡1superscriptsubscriptitalic-ϵ𝜃𝑡subscript𝑧𝑡“direction pointing to ztsubscript𝛼𝑡1^subscript𝑧01subscript𝛼𝑡1^subscriptitalic-ϵ𝜃\begin{split}z_{t-1}&=\sqrt{\alpha_{t-1}}\underbrace{\frac{z_{t}-\sqrt{1-% \alpha_{t}}\epsilon_{\theta}}{\sqrt{\alpha_{t}}}}_{\text{``predicted $z_{0}$''% }}+\underbrace{\sqrt{1-\alpha_{t-1}}\cdot\epsilon_{\theta}^{(t)}(z_{t})}_{% \text{``direction pointing to $z_{t}$''}}\\ &\approx\sqrt{\alpha_{t-1}}\hat{z_{0}}+\sqrt{1-\alpha_{t-1}}\hat{\epsilon_{% \theta}}\end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_CELL start_CELL = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG under⏟ start_ARG divide start_ARG italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG end_ARG start_POSTSUBSCRIPT “predicted italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT + under⏟ start_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG ⋅ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_t ) end_POSTSUPERSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ) end_ARG start_POSTSUBSCRIPT “direction pointing to italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT ” end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ≈ square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG over^ start_ARG italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_ARG + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG over^ start_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT end_ARG end_CELL end_ROW

したがって、逆過程における元のSNRは依然として以下のとおりである: SNR(t1)=αt11αt1SNRt1subscript𝛼𝑡11subscript𝛼𝑡1\mathrm{SNR(t-1)}=\frac{\alpha_{t-1}}{1-\alpha_{t-1}}roman_SNR ( roman_t - 1 ) = divide start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG

式6は、DDIMノイズ除去方程式に基づく修正SNRを示している。以下に段階的な導出を示す:

zt1=αt1zt1αtϵθωαt+1αt1ϵθωsuperscriptsubscript𝑧𝑡1subscript𝛼𝑡1subscript𝑧𝑡1subscript𝛼𝑡subscriptitalic-ϵ𝜃𝜔subscript𝛼𝑡1subscript𝛼𝑡1subscriptitalic-ϵ𝜃𝜔\begin{split}z_{t-1}^{\prime}&=\sqrt{\alpha_{t-1}}\frac{z_{t}-\sqrt{1-\alpha_{% t}}\epsilon_{\theta}\cdot\omega}{\sqrt{\alpha_{t}}}+\sqrt{1-\alpha_{t-1}}% \epsilon_{\theta}\cdot\omega\\ \end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL start_CELL = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG divide start_ARG italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT - square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ⋅ italic_ω end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ⋅ italic_ω end_CELL end_ROW

式に zt=αtz0+1αtϵθsubscript𝑧𝑡subscript𝛼𝑡subscript𝑧01subscript𝛼𝑡subscriptitalic-ϵ𝜃z_{t}=\sqrt{\alpha_{t}}z_{0}+\sqrt{1-\alpha_{t}}\epsilon_{\theta}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT を代入し、z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTϵθsubscriptitalic-ϵ𝜃\epsilon_{\theta}italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT の項を分離すると、以下のようになる:

zt1=Az0+Bϵθsuperscriptsubscript𝑧𝑡1𝐴subscript𝑧0𝐵subscriptitalic-ϵ𝜃\begin{split}z_{t-1}^{\prime}=Az_{0}+B\epsilon_{\theta}\end{split}start_ROW start_CELL italic_z start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = italic_A italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_B italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT end_CELL end_ROW

ここで、

A=αt1B=αt11αt(1ω)+αt1αt1ωαt𝐴subscript𝛼𝑡1𝐵subscript𝛼𝑡11subscript𝛼𝑡1𝜔subscript𝛼𝑡1subscript𝛼𝑡1𝜔subscript𝛼𝑡\begin{split}A&=\sqrt{\alpha_{t-1}}\\ B&=\frac{\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}(1-\omega)+\sqrt{\alpha_{t}}% \sqrt{1-\alpha_{t-1}}\omega}{\sqrt{\alpha_{t}}}\end{split}start_ROW start_CELL italic_A end_CELL start_CELL = square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG end_CELL end_ROW start_ROW start_CELL italic_B end_CELL start_CELL = divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG ( 1 - italic_ω ) + square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG italic_ω end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG end_CELL end_ROW

したがって、修正SNRは以下のとおりである:

SNR=A2B2=αt1(αt11αt(1ω)+αt1αt1ω)2αt=αt1(αt11αtαt+αt1αt1αt11αtαtω)2ωsuperscriptSNRsuperscript𝐴2superscript𝐵2subscript𝛼𝑡1superscriptsubscript𝛼𝑡11subscript𝛼𝑡1𝜔subscript𝛼𝑡1subscript𝛼𝑡1𝜔2subscript𝛼𝑡subscript𝛼𝑡1superscriptsubscript𝛼𝑡11subscript𝛼𝑡subscript𝛼𝑡subscript𝛼𝑡1subscript𝛼𝑡1subscript𝛼𝑡11subscript𝛼𝑡subscript𝛼𝑡𝜔2proportional-to𝜔\begin{split}\mathrm{SNR}^{\prime}&=\frac{A^{2}}{B^{2}}\\ &=\frac{\alpha_{t-1}}{\frac{(\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}(1-\omega)+% \sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}\omega)^{2}}{\alpha_{t}}}\\ &=\frac{\alpha_{t-1}}{\left(\frac{\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}}{% \sqrt{\alpha_{t}}}+\frac{\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}-\sqrt{\alpha_{% t-1}}\sqrt{1-\alpha_{t}}}{\sqrt{\alpha_{t}}}\omega\right)^{2}}\\ &\propto\omega\end{split}start_ROW start_CELL roman_SNR start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT end_CELL start_CELL = divide start_ARG italic_A start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG italic_B start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = divide start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG start_ARG divide start_ARG ( square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG ( 1 - italic_ω ) + square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG italic_ω ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL = divide start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG start_ARG ( divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG + divide start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG - square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG start_ARG square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG end_ARG italic_ω ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG end_CELL end_ROW start_ROW start_CELL end_CELL start_CELL ∝ italic_ω end_CELL end_ROW

αtsubscript𝛼𝑡\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT は拡散モデルにおいて単調減少するため、αt1>αtsubscript𝛼𝑡1subscript𝛼𝑡\alpha_{t-1}>\alpha_{t}italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT > italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT および 1αt>1αt11subscript𝛼𝑡1subscript𝛼𝑡11-\alpha_{t}>1-\alpha_{t-1}1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT > 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPTとなる。したがって、αt1αt1αt11αtsubscript𝛼𝑡1subscript𝛼𝑡1subscript𝛼𝑡11subscript𝛼𝑡\sqrt{\alpha_{t}}\sqrt{1-\alpha_{t-1}}-\sqrt{\alpha_{t-1}}\sqrt{1-\alpha_{t}}square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG - square-root start_ARG italic_α start_POSTSUBSCRIPT italic_t - 1 end_POSTSUBSCRIPT end_ARG square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT end_ARG は常に負であり、SNRsuperscriptSNR\mathrm{SNR}^{\prime}roman_SNR start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPTω𝜔\omegaitalic_ω の増加に伴って増加する。

Refer to caption
図12: ωの変化(左)対推論ステップ数の変化(右)。例1。オレンジ色のボックスは ω=1.0𝜔1.0\omega=1.0italic_ω = 1.0 かつ推論ステップ数 =50absent50=50= 50 の場合のデフォルト結果を示す。

Appendix C User Study

Omeganceの画像粒度制御と画質保持の効果を実証するため、我々は2部構成のユーザー調査を設計した。

第1部では、各質問において、参加者に3枚の画像が提示される。1枚はベースモデルによって生成され、他の2枚はOmeganceを適用したベースモデルによって生成される。参加者は、自身の観察に最も一致する画像粒度のランク(高から低)を選択するよう求められる。粒度に関する以下の説明が提供される:画像生成における粒度とは、視覚的出力の詳細さとテクスチャの豊かさのレベルを指す。高粒度は複雑なテクスチャ、複雑なパターン、豊かな視覚的密度に対応し、低粒度は滑らかな遷移、最小限の詳細、より単純な構成に関連する。このような設計の背景にある動機は、ユーザーが粒度のランクを正確に区別できれば、Omeganceの画像粒度制御の有効性が証明されるということである。第1部で使用される画像は、SDXL [16] とFLUX [13] を用いて、グローバルOmeganceによって生成される。定量的評価のため、我々は各ランク位置を個別に考慮し、独立して精度を計算する。最終的な平均ランク精度は、全てのランク位置の精度の平均である。

パート2では、Omeganceがベースモデルの品質を損なわず、時には人工物を修正し現実感を向上させることで品質を改善できることを示すことが我々の目的である。我々は、ベースモデルがOmeganceありとなしで生成した2つのコンテンツを提示し、ユーザーにより高品質なものを選択するよう求める。視覚的品質の定義に関する指示は以下の通りである:視覚的品質とは、生成されたコンテンツの全体的な知覚的魅力と一貫性を指し、鮮明さ、現実感、与えられたプロンプトへの忠実性、人工物からの自由度などの側面を包含する。品質競争で50%以上の票を獲得することで、Omeganceがベースモデルと少なくとも同等の品質結果を達成できることを証明するのに十分であると我々は考える。パート2で使用される結果は、SDXL [15]、FLUX [13]、RealVisXL-5.0 [21]、AnimateDiff [8]、およびLatte [14]によって生成されたものである。我々の手法がベースモデルと同等以上の品質を達成したことを示す投票の割合を、我々の品質評価として報告する。

Appendix D Discussion

本節では、粒度において同様の効果を達成する、あるいは我々の設計選択を動機付ける複数の設定について議論する。

D.1 Change Inference Steps

Refer to caption
図13: オメガの変更(左)vs. 推論ステップ数の変更(右)。例2。オレンジ色のボックスはω=1.0𝜔1.0\omega=1.0italic_ω = 1.0で推論ステップ数が=50absent50=50= 50の場合のデフォルト結果を示している。

生成出力の粒度に影響を与える直感的なアプローチは、推論ステップ数を調整することである。しかし、我々の実験で観察されたように、ステップ数を線形に増加させても一貫した粒度制御は得られない。図12および13は、SDXL[16]とEuler離散スケジューラ[12]を使用してこれを示している。ステップ数の増加によるレイアウトの複雑さやテクスチャの豊かさの変化は、Omeganceで達成される一貫した効果と比較して不規則なパターンを示している。さらに、ステップ数の変更は画像全体にグローバルに影響を与え、領域特有の調整能力がない。対照的に、Omeganceはオメガマスクとスケジュールを通じて局所的な制御を可能にする。オメガマスクは領域特有の粒度調整を可能にし、選択されていない領域を保持しながら特定の領域の詳細を強調または抑制することができ、オメガスケジュールは異なるデノイジング段階でレイアウトやテクスチャの粒度を洗練することができる。この柔軟性は、異なる領域や要素が様々なレベルの詳細を必要とする実世界のデザインタスクにおいて特に価値がある。さらに、ステップ数の増加は計算オーバーヘッドを追加するが、粒度制御の大幅な改善を保証するものではない。一方、Omeganceは固定の推論スケジュール内で追加コストなしに粒度操作を提供し、計算効率と出力の忠実性を維持する。

要約すると、推論ステップの調整は粒度制御のための粗い機構であり、全体的なデノイジングダイナミクスを変更するが、微調整された制御を提供しない。Omeganceは、既存のデノイジングフレームワーク内で直接操作することにより、追加の計算コストなしに精密で、ユーザー主導の調整を提供する。

D.2 Change Latent Mean

Refer to caption
図14: 潜在平均の変更が画像のRGB平均に与える影響の分析。

Omeganceでは、ztsubscript𝑧𝑡z_{t}italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPTの分散を変更する一方で、その平均を慎重に保持している。この設計選択は、潜在平均の変更が最終的にデコードされた出力のカラーシフトにつながるという我々の観察に基づいている。この現象は、潜在拡散モデルにおいてVAEでエンコードされた潜在変数の平均を直接修正することで検証できる [19]。図14(a)の元画像をx0subscript𝑥0x_{0}italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTとし、SD3で使用されているVAEを用いて画像を潜在変数z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTにエンコードし[5]z0subscript𝑧0z_{0}italic_z start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTの平均を直接修正する。潜在平均を増加させた結果と減少させた結果をそれぞれ図14(b)と(c)に示す。これらの結果は、緑チャンネルが平均の変化に特に敏感である一方、赤チャンネルが最も影響を受けにくいことを示している。結果として、平均を増加させると緑色が支配的になり、減少させると赤色が支配的になり、望ましくないカラーシフトが生じる。このような人工的な影響を避けるため、我々はOmeganceの実装において平均保存を確保している。

Appendix E More Implementation Details

本節では、本稿で示されたデモコンテンツを生成するための実装の詳細について説明する。

E.1 Prompts for Demo

我々は大規模言語モデルを使用してプロンプトの生成を支援している。

図1(a)夜明けの静かな湖。雪をかぶった山々と柔らかなピンク色の空が水晶のように澄んだ水面に映り込んでいる。前景には、湖岸に沿って繊細な野花が咲き、小さな木製のボートが静かに漂っている。湖の鏡のように滑らかな表面は、花々やボート、遠くの山々の豊かな細部と対照的であり、すべてが穏やかな朝の光に柔らかく照らされている。

図1(b)星空模様の長い外套を着た賢者の魔法使いが、巨大な木々と柔らかく光る鮮やかなキノコに囲まれた魔法の森の空き地に立っている。彼の周りには、浮遊する魔法の球体と輝く蛍が神秘的な雰囲気を醸し出し、野花やツタに覆われた石が情景に質感を加えている。

図1(c)色とりどりのテントや屋台が立ち並ぶ賑やかな中世の市場。商人たちが香辛料、織物、宝飾品を展示している。石畳の通りが屋台の間を縫うように走り、遠くには地平線に向かって聳え立つ城が見える。

図3 SDXL(左)流れるようなローブを着た優しい癒し手が、静かな森の池のそばに立ち、水面に手を伸ばすと柔らかな光が彼女を包み込む。池の滑らかな表面には彼女の姿と周囲の高い木々が映り込み、苔むした岸辺には小さな鮮やかな野花が点在している。

図3 SDXL(中央)夕暮れ時の静かな日本の禅庭園。苔むした石を取り囲む滑らかな砂紋と、灯籠の温かな光を反射する穏やかに流れる小川がある。

図3 SDXL(右)丸みを帯びた滑らかな壁と、カラフルなボタンや画面で埋め尽くされたコントロールパネルを備えた未来的な宇宙ステーションの内部。洗練されたスペースーツを着た宇宙飛行士たちが無重力状態でゆっくりと浮遊し、周囲には浮かぶ道具や、星図や遠い惑星を映し出す輝くホログラフィックディスプレイがある。

図3 SDXL + FreeU印象派風に描かれた賑やかな川沿いのカフェ。柔らかく落ち着いた色調の人物たちが、輝く提灯の下に集まっている。川面は光を反射し、滑らかな波紋を作り出し、その色彩が周囲の木々や建物と滑らかに溶け合っている。

図3 RealVisXL-5.0日の出時の静かな草原。大きなオークの木の下にヴィンテージのピクニックブランケットが広げられている。パステルカラーの野花が柔らかな草の上に咲き誇り、焼きたてのパンや果物が入った籐のピクニックバスケットが、牧歌的な情景に彩りを添えている。

図3 SD3滑らかに磨かれた床と、深い青と銀色で星座が描かれた巨大なドーム天井を持つ天体観測所。中央には大きな望遠鏡が立ち、周囲には複雑な星図や図表が散らばり、それらは柔らかく輝く星々の光に包まれている。

図3 FLUX雨の午後の居心地の良いアニメ風カフェ。客たちはテーブルに座って温かい飲み物を楽しみ、大きな窓に雨粒が静かに打ち付けている。柔らかく温かな照明がカフェに歓迎の雰囲気を与え、額縁に入った絵画や本、クッションが散りばめられ、居心地の良い内装に豊かな細部を加えている。

図5少年がポケモンで遊んでいる。

図6冬のアルプスの村の素朴な市場。手作りの工芸品、焼き菓子、温かい飲み物を売る屋台が、雪に覆われた木造シャレーの間に並んでいる。背景には松の木と山頂が見え、柔らかな雪が降り積もり、祝祭的で賑やかな雰囲気に魅力を添えている。

図7(上)クリーミーな白い大理石のテーブルに、小さなスミレとデイジーの花が散りばめられている。その上に、薄い金縁の入った古典的な白い皿が置かれている。チョコレートケーキは、ダークチョコレートのカールと鮮やかなベリーをトッピングし、皿の上に美しく配置されており、ケーキの豊かな質感と洗練された優雅な設定との間に印象的なコントラストを生み出している。

図7(下)サングラスをかけたクールな狐が、錆びた水道管にもたれかかっている。

図8 SDXL ポーズ(左)砂漠で踊るダース・ベイダー、高品質。

図8 SDXL ポーズ(右)エルフの戦士姫が豊かな森の空き地に立っている。彼女の鎧は繊細な葉の模様と輝く宝石で飾られている。マントには自然のモチーフが刺繍され、装飾された弓と矢筒が優雅さを加え、自然と高貴さが見事に調和した印象的な姿を作り出している。

図8 SDXL 深度(左)花で飾られたトピアリー植物。

図8 SDXL 深度(右)磨き上げられた金属製の体と青く光る目を持つスリークで未来的なロボット。関節や回路に細かな詳細が施された関節可動式の四肢を持ち、直立している。柔らかな光が表面に反射し、その先進的なデザインと滑らかで流線型のフォルムを際立たせている。

図8 SDXL Canny(左)空中からの眺め、明るい霧に包まれたジャングルにある未来的な研究施設、ハードライティング。

図8 SDXL Canny(右)繊細な銀のペンダントに輝くダイヤモンドが散りばめられ、中央には大きなブリリアントカットのサファイアが配された見事な宝飾品。柔らかな光の中で輝く、細部まで精巧に作り込まれた細い鎖から吊り下げられている。

図8 FLUX Canny(右)花咲く草原の中央に、きらめくクリスタルの邸宅が立っている。その壁は太陽光を屈折させ、鮮やかな虹を作り出している。繊細な桜の木々が、華麗なガラスのドアへと続く石畳の小道に沿って並び、蝶が穏やかな風に舞っている。

図8 FLUX Canny(左)パステルカラーの奇想天外なコテージが、緩やかな傾斜の屋根と丸みを帯びた窓を持ち、巨大な花々の鮮やかな庭園の中に佇んでいる。石畳の小道がアーチ型の木製ドアへと続き、軒先からはきらめく灯りが吊るされ、黄金色の午後の太陽の下で柔らかく輝いている。

図9(上)花で満たされたガラスの花瓶。

図9(下)バスケットに入った子猫。

図10ベンチの中央に置かれたガラスの瓶に、緩やかにアレンジされた野花の花束が入っている。花びらや葉が瓶の縁からこぼれ落ちている。花々の柔らかな質感が、瓶とベンチの構造的な要素とバランスを取り、優雅さを醸し出している。

E.2 Negative Prompt

我々は、生成品質を向上させるために、適用可能な場合にはネガティブプロンプトを使用する: 「歪んだ線、変形した形状、不均一なグリッドパターン、不規則な幾何学、ずれた対称性、低品質、悪品質」

E.3 Omega Rescale

Refer to caption
図15: オメガ再スケーリング関数の可視化。

3.2節で言及したように、我々は以下の方法でオメガを再スケーリングし、(,)(-\infty,\infty)( - ∞ , ∞ )の入力範囲内でより細かい制御を可能にする:

ω=(ϖ)=L+UL1+ekϖ𝜔italic-ϖ𝐿𝑈𝐿1superscript𝑒𝑘italic-ϖ\omega=\mathcal{R}(\varpi)=L+\frac{U-L}{1+e^{-k\cdot\varpi}}italic_ω = caligraphic_R ( italic_ϖ ) = italic_L + divide start_ARG italic_U - italic_L end_ARG start_ARG 1 + italic_e start_POSTSUPERSCRIPT - italic_k ⋅ italic_ϖ end_POSTSUPERSCRIPT end_ARG (10)

SDXLモデル[16]のデフォルトの再スケーリング関数は、図15k=0.1,L=0.95,U=1.05formulae-sequence𝑘0.1formulae-sequence𝐿0.95𝑈1.05k=0.1,L=0.95,U=1.05italic_k = 0.1 , italic_L = 0.95 , italic_U = 1.05で可視化されている。この場合、ϖitalic-ϖ\varpiitalic_ϖ[10.0,10.0]10.010.0[-10.0,10.0][ - 10.0 , 10.0 ]の範囲内で目に見える効果を示すであろう。SD3[5]とFLUX[13]では、ω𝜔\omegaitalic_ωの範囲は[0.8,1.2]0.81.2[0.8,1.2][ 0.8 , 1.2 ]付近でより大きくなるべきである。

Appendix F More Qualitative Results

本節では、SDXL [16]、SDXL+FreeU [22]、RealVisXL-V5.0 [21]、SD3 [5]、FLUX [13]、およびControlNet [28]におけるOmeganceのさらなる例を示す。制御信号は元の結果の左上隅に示されている。使用されたOmegaマスクは、対応するOmeganceで編集された結果の左下隅に示されている。赤は詳細の強調を、青は詳細の抑制を表す。

Refer to caption
図16: SDXLにおけるOmeganceのさらなるグローバル効果。
Refer to caption
図17: SDXL+FreeUおよびRealVisXL-V5.0におけるOmeganceのさらなるグローバル効果。
Refer to caption
図18: SD3およびFLUXにおけるOmeganceのさらなるグローバル効果。
Refer to caption
図19: 図6で定義されたスケジュールに従うスケジュールベースのOmeganceのさらなる時間的効果。
Refer to caption
図20: マスクベースのOmeganceのさらなる空間的効果。
Refer to caption
図21: Cannyシグナルを用いたControlNetにおけるマスクベースのOmeganceのさらなる空間的効果。