Omegance: A Single Parameter for Various Granularities in
Diffusion-Based Synthesis
Abstract
本稿では、拡散ベースの合成における粒度を効果的に制御するための単一のパラメータを導入する。このパラメータは、拡散モデルの逆過程におけるノイズ除去ステップに組み込まれる。我々のアプローチは、モデルの再訓練、アーキテクチャの変更、または推論時の追加の計算オーバーヘッドを必要とせず、生成される出力の詳細レベルを正確に制御することを可能にする。さらに、空間マスクや異なる値を持つノイズ除去スケジュールを適用することで、領域特定または時間ステップ特定の粒度制御を達成できる。 制御信号や参照画像からの画像構成に関する事前知識は、特定のオブジェクトに対する粒度制御のための精密なマスクの作成をさらに促進する。 微妙な詳細の変化を制御するパラメータの役割を強調するため、この技術は「オメガ」と「ニュアンス」を組み合わせたOmeganceと名付けられた。我々の手法は、様々な画像および動画合成タスクにおいて印象的な性能を示し、高度な拡散モデルにも適応可能である。コードはhttps://github.com/itsmag11/Omeganceで入手可能である。
1 Introduction
拡散モデルは、学習された反復プロセスを通じてランダムノイズを一貫性のある視覚的コンテンツへと段階的に変換することで、画像および芸術作品の生成において強力なツールとして台頭してきた。 拡散モデルは特に高品質で多様な結果を生成する上で効果的である。
アーティストやデザイナーは、しばしば作品のどこにどのように詳細を適用するかを戦略的に決定する必要がある。作品や写真における詳細のレベルは、その視覚的調和、秩序、明瞭さを形作り、鑑賞者の体験と解釈に影響を与えながら、彼らの焦点を導く[2]。 バニラの拡散モデルは、本質的に画像の特定の領域における粒度レベルの直接的で微調整された制御を提供しない。モデルは異なる画像間で様々な詳細レベルを生成できるが、その均一な生成プロセスは同一画像内の異なる部分でどの程度の詳細をレンダリングするかを容易に操作することを許容しない。画像における詳細のレベルは、テキストのみで伝えることが困難—あるいは不可能—な場合がある。例えば、主要な被写体の高い詳細を保持しながら背景の詳細を減らすこと(図1(b)の右側のケースを参照)は単純ではない。
本稿では、各ノイズ除去ステップ中に予測されたノイズをスケーリングすることで、拡散モデル出力の詳細レベルを制御するための新規かつ「驚くほど」単純なアプローチを探求する。我々の手法は、ネットワークアーキテクチャやタイムステップスケジューリングの変更を必要としない。代わりに、各ステップで除去されるノイズの分散を動的に調整することで、視覚的出力の粒度に影響を与えられることを実証する。この単純かつ柔軟な技術により、概念密度とオブジェクトテクスチャの調整が可能となり、ユーザーに合成されたコンテンツのより繊細な制御を提供する。
我々のアプローチは、ノイズのスケーリングが単一のパラメータomega、で達成されるため魅力的である。を減少させると、除去されるノイズが少なくなり、ネットワークはより複雑なシーンとより豊かなテクスチャを推論するようになる。逆に、を増加させるとより多くのノイズが除去され、より滑らかで単純な出力につながる。 我々のomega制御を空間的に全体的に、そして時間的に一貫して適用することで、図1(a)に示すように、均一により豊かな、あるいはより滑らかな結果を得ることができるが、空間的にも時間的にもより精密な制御を実装することができる。(1) 単一の画像内でも粒度の要求が異なる場合がある。例えば、豊かなテクスチャや複雑な視覚要素を必要とする領域にはより細かい粒度の詳細が、滑らかな遷移や高レベルの品質を要求する領域にはより粗い粒度の詳細が必要となる。そこで、omegaマスクを使用して、異なる空間領域にわたって望ましい効果をカスタマイズすることができる。異なる空間効果の例を図1(b)に示す。マスクは、ユーザーが提供するストロークから作成することも、特定のガイド条件を使用して生成することもできる。(2) 物体の形状や画像のレイアウトが通常初期段階で現れ、細部が後期段階で現れる拡散ノイズ除去ダイナミクス[10, 24]とより良く整合させるために、omegaスケジュールを実装し、時間とともにomega値を調整してレイアウトと詳細なテクスチャに対する効果を変化させることができる。例を図1(c)に示す。
我々のOmegance技術は、段階的な拡散除去プロセスに従う限り、特定のネットワークアーキテクチャや除去スケジューラに限定されるものではない。広範な実験により、Omeganceが様々な拡散ベースの合成タスクに適応できることが実証されている。評価されたモデルには、テキストから画像生成のためのStable Diffusion [16, 5] とFLUX [13]、画像から画像生成のためのSDEdit [15] とControlNet [28]、画像インペインティングのためのSDXL-Inpainting [16]、実画像編集のためのReNoise [7]、そしてテキストから動画生成のためのLatte [14] とAnimateDiff [8] が含まれる。いくつかの例を図 1 に示す。上記のすべてのアプリケーションにおいて、生成された結果に対する効果的でスムーズかつ微妙な制御が観察され、我々の単一パラメータによる粒度調整の有効性が実証されている。要約すると、我々の貢献は以下の通りである:
-
•
我々は、拡散ベースのモデルにおいて生成されるコンテンツの粒度を単一パラメータで制御可能にする、シンプルかつ効果的なオメガスケーリング技術を提案する。我々の手法は学習不要であり、推論コストの増加もなく、ネットワークアーキテクチャに依存しない。
-
•
我々は、空間的に適応的なオメガマスクと時間的に動的なオメガスケジュールの両方を導入し、生成された画像や動画内での局所的かつ段階的な粒度制御を可能にする。
-
•
我々は、広範な画像および動画合成タスクにおけるオメガスケーリングの適用可能性を実証する。
2 Related Work
拡散モデルに基づく編集。 これまでの拡散モデルに基づく編集手法の多くは、CLIPの視覚-言語連携能力を活用して、言語ガイダンスに従って視覚コンテンツを編集することに焦点を当てている[17]。Prompt-to-Prompt[9]とInstructPix2Pix[4]は、生成プロセス中にテキストプロンプトと視覚特徴を整列させる上で重要な役割を果たすクロスアテンションマップを修正することで、出力内の概念を編集する。SEGA[3]は、ノイズ除去中にターゲットプロンプトの意味的ガイダンスに従って結果を生成する。Wuら[25]は、ターゲット属性を含むプロンプトと含まないプロンプトのテキスト埋め込みを混合することで、元のコンテンツを保持しながら望ましい属性に整列できることを見出した。さらに、SDEdit[15]は編集された画像にノイズを追加し、拡散事前分布を利用して編集部分を自然な画像として合理化する。しかしながら、これらの従来手法は、編集対象が言語で明示的に表現できない場合や元の画像で示されていない場合には効果が低く、出力の粒度を柔軟に編集する方法を提供できていない。
生成品質の向上。 拡散モデルによって生成されるコンテンツの品質を向上させるための取り組みも行われてきた。いくつかの研究では、生成品質を改善するためにClassifier-Free Guidance (CFG)の修正を探求している[11, 1, 20]。SAG [11]とPAG [1]は、CFGのnull-text予測を自己注意マップまたは摂動を加えた自己注意マップに置き換えることで、高品質かつトレーニングと条件に依存しない生成を可能にしている。Sadat ら [20]は、CFGに類似したガイダンス戦略を提案しており、クリーンなテキスト埋め込みと摂動を加えたテキスト埋め込みの間に適用することで、生成品質を向上させている。これらの手法は全体的な品質を効果的に向上させるが、生成された出力の詳細を空間的に細かく制御する能力が欠けている。 別の研究の流れでは、人間のフィードバックからの強化学習(RLHF)を活用して、人間の嗜好に合わせたより高品質な結果を得るために拡散モデルを微調整している[26, 6, 27]。Xu ら [26]は、汎用的なテキストから画像への人間の嗜好報酬モデルを提示し、これを用いて人間の嗜好スコアに関して拡散モデルを微調整している。同様のアプローチが並行して行われた研究DPOK [6]でも採用されている。さらに、Yang ら [27]は直接選好最適化(DPO)を採用し、別個の報酬モデルを用いずに人間のフィードバックに合わせて拡散モデルを微調整している。これらの手法は人間の嗜好を反映した出力を生成するが、コストのかかるモデルの微調整を必要とし、出力の粒度を柔軟に制御することができない。 最近、FreeU [22]が拡散モデルの出力品質を向上させるために導入された。これは特に、ノイズ除去プロセスにおけるU-Netアーキテクチャを対象としている。この手法は、推論時に2つのスケーリング係数を共同で調整することを含む:1つはバックボーン特徴を増幅するためのもの、もう1つはスキップ接続の影響を調整して、過度の平滑化や高周波要素の劣化を避けつつ詳細をより良く保持するためのものである。 FreeUは顕著な品質向上を達成しているが、U-Netアーキテクチャに密接に結びついており、その2つのスケーリングパラメータの慎重な調整を必要とする。 対照的に、Omeganceはより単純で柔軟性が高く、アーキテクチャに依存しないアプローチを提供し、拡散モデルの詳細レベルを制御することができる。
3 Methodology
3.1 Diffusion Model Preliminaries
拡散モデルは、サンプルに加えられたノイズを反復的に予測することで、リアルな画像を合成する強力な生成モデルである。これらは2つのプロセスで構成される:順方向プロセスでは、から直接デコードされた初期潜在変数にガウシアンノイズが徐々に加えられる。Song ら[23]に従い、我々はこのプロセスを以下のように定式化する:
(1) |
ここで、はタイムステップにおけるノイズの加わった潜在変数である。ノイズスケジュールはの累積積として定義される:。ここで、は各タイムステップで加えられるノイズの量を制御する事前定義された分散スケジュールである[10]。逆方向プロセスでは、純粋なガウシアンノイズが学習された除ノイズプロセスを通じて一貫した視覚コンテンツに変換される。除ノイズプロセスの一般的な表現は以下の通りである:
(2) |
ここで、とは、特定のスケジューラに応じて変化する現在のノイズ信号とノイズ予測のスケーリング係数である(詳細は補足資料を参照)。はパラメータを持つ除ノイズネットワークによる時間におけるノイズ予測である。この式は反復的な除ノイズプロセスを特徴づけており、各ステップはよりノイズの多い潜在変数からクリーンなに向かって徐々に移動し、よりノイズの少ない潜在変数を得ることを目指している。
信号対雑音比。拡散モデルにおいて、信号対雑音比(SNR)は各タイムステップにおける元の画像コンテンツと加えられたガウシアンノイズのバランスを定義する上で重要な役割を果たす。式(1)より、は以下のように定義される:
(3) |
のとき、となり、純粋な画像信号を示す。が増加するにつれて、SNRはまで減少し、純粋なノイズを示す。 除ノイズ過程において、 モデルは各タイムステップのSNRを順方向プロセスで定義されたSNRに徐々に合わせていく。 はノイズスケジュールによって事前に定義されているため、従来の拡散モデルにおけるSNRは除ノイズプロセス全体を通じて固定されたままであり、各タイムステップでのノイズ量の制御に柔軟性が制限される。
3.2 Omegance
我々はOmeganceを導入する。これは、逆拡散ステップにおける各ノイズ除去ステップでのノイズ予測をスケーリングするためにパラメータを使用する。Omeganceを用いた単一のノイズ除去ステップの一般形式は以下のように定式化される:
(4) |
各ノイズ除去ステップにおけるノイズ予測は標準ガウスノイズ:であるため、スケーリング係数を乗じることで平均を0に保ちながら、分散をに比例して調整する。 実際には、は、より細かい制御を可能にするためにの入力範囲を許容するようにリスケールされ、以下のようにを中心に再配置される:
(5) |
ノイズ除去項に係数を導入するだけの単純な手法であるが、SNRと詳細生成への影響は調査に値する。DDIMスケジューラ[23]を例にとると、ノイズ除去中の修正されたSNRは以下のように定式化される(段階的な導出については補足資料を参照):
(6) |
ここで、はの単調減少性により常に負である。
-
•
の場合、となる。 Omeganceは式(2)の標準的なノイズ除去スケジュールを維持し、から除去されるノイズの量を変更しない。SNRスケジュールは順方向プロセスと一致する。この設定は、元のノイズスケジュールの期待される粒度に合致する、画像全体にわたって標準的な詳細度とテクスチャを持つバランスの取れた出力を生成する。
-
•
の場合、となる。 ノイズ予測がスケールダウンされ、に向けてのノイズ除去がより控えめになる。 したがって、潜在状態は追加の高周波情報を保持する。これは図2(c)に示されている。 ノイズ成分が支配的になるため、モデルはこの残留ノイズを「正当化」し、より複雑な構造とより豊かなテクスチャを生成することで、出力の視覚的複雑性を高める。
-
•
の場合、となる。 ノイズ除去スケジュールがより積極的になる。このノイズ除去の増幅は、潜在の高周波情報を減少させる。信号が支配的になるため、モデルは減少した残留ノイズをテクスチャと詳細を単純化する手がかりとして解釈し、よりスムーズで複雑さの少ない視覚的出力を生成する。
豊かな効果とスムーズな効果の両方が、ユーザーの意図に応じて望ましい場合がある。例えば、を設定すると詳細が強調され、市場のより賑やかな群衆、衣服デザインの複雑なパターン、砂や波のような要素の細かいテクスチャの生成に適している。一方、はよりスムーズで単純な視覚効果を生み出し、澄んだ空、穏やかな水面、ミニマリストデザインなど、簡素な美学が好まれるシーンに理想的である。この柔軟性により、ユーザーは特定の視覚的およびスタイル的目標に合わせて粒度を動的に調整することができる。
様々なスケジューラにおけるOmegance。 Omeganceは様々なノイズスケジューラに適用できる。以下に、いくつかの一般的なスケジューラに対する修正されたノイズ除去ステップの公式を示す。DDIM[23]とEuler離散[12]スケジューラでは、現在のステップで追加される標準ノイズが利用可能である(Eulerスケジューラでは、の「導関数」を近似する)ため、平均を保持しながら分散を修正するために直接を適用できる。
(1) DDIMスケジューラ[23]:
(7) |
(2) Euler離散スケジューラ[12]:
(8) |
ここで、はKarrasら[12]のノイズレベルであり、はがを摂動させる「churn」因子である場合である。
しかし、フローマッチングベースのスケジューラ[5]では、順方向プロセスはステップごとのノイズ追加スケジュールを必要としない連続変換を学習する:、ここでであり、これは式(1)とは若干異なる。逆プロセスでは、モデルはを予測し、で1ステップ前進する。ここで、は一般式(2)のノイズ除去量を表すが、必ずしも標準ノイズではない。平均シフトを防ぐために、フローマッチングスケジューラではOmeganceを用いた追加の平均保持操作を適用する。
(3) フローマッチングスケジューラ[5]:
(9) |
3.2.1 Omega Mask
オメガマスクは、ノイズ除去プロセス中に異なる領域が異なる値を持つことを可能にすることで、単一画像内の粒度を空間的に変化させる制御を導入する。
はのマスクであり、はVAEのダウンサンプリング係数によってスケーリングされた元の画像寸法である。マスクは、ユーザーが提供するストローク、セグメンテーションマスク、またはポーズスケルトン、深度マップなどの制御信号から自動生成されたものから、図8に示すように離散的および連続的な方法で取得できる。
この空間的制御は、ノイズ除去プロセスの局所性を活用し、ある領域のの調整が隣接領域のや視覚的特性に影響を与えないことを保証する。このような柔軟性は、単一画像内で領域特定の詳細制御を必要とするアプリケーションに有用であり、焦点領域での細かいテクスチャを可能にしながら、他の場所ではスムーズさを維持することができる。
3.2.2 Omega Schedule
オメガスケジュールは、ノイズ除去プロセスの異なる段階で値を動的に調整することにより、粒度を制御するメカニズムを提供する。逆拡散プロセスの特定の段階でを導入することで、オメガスケジュールは生成される画像の広範なレイアウトと細かい詳細の両方に対して標的を絞った影響を可能にする。この時間的制御はノイズ除去のダイナミクスに合致している:初期のノイズ除去段階は主に一般的な構造とレイアウトを再構築し、後期の段階ではより細かい詳細を洗練する。 異なるノイズ除去段階でオメガを適用する効果は図4に示されている。 レイアウト形成の初期段階は全体のスケジュールのごく一部、通常50ステップのノイズ除去プロセスの最初の10ステップ以内(、の場合)を占めるに過ぎないことに注意が必要である。これは、レイアウト情報が順方向プロセスの最後の数ステップでのみ破壊されるという事実による。 より多くのスケジュールとその効果は図6に視覚化されている。 オメガスケジュールは画像合成の段階特有の制御を可能にし、構図と詳細の両方の微妙な操作を可能にする。この柔軟性は、ノイズ
4 Experiments
我々は、Stable Diffusion XL (SDXL) [16]、RealVisXL-V5.0 [21]、Stable Diffusion 3 (SD3) [5]、FLUX [13]、FreeU [22]、SDEdit [15]、ContolNet [28]、ReNoise [7]、SDXL-Inpainting [16]、Latte [14]、AnimateDiff [8]を含む様々な生成モデルとアプリケーションにおいて、Omeganceの有効性を検証する。これらの手法の実装は、Hugging FaceのDiffusersリポジトリ111https://github.com/huggingface/diffusersに基づいている。なお、純粋にテキストガイドによる手法では、出力構成に関する事前知識がないため、オメガマスク実験は除外していることに留意されたい。
4.1 Text-to-Image Generation
グローバル効果。 Omeganceを空間次元全体に均一に、そして時間的に一貫して適用すると、出力のレイアウトと細部の両方に影響を与えるグローバルな粒度の変化が生じる。より多くの定性的結果は図3に示されている。
粒度制御を提供することに加えて、Omeganceは時折生成された出力を向上させることもある。これは図5に示されている。SDXL[16]のような低品質モデルでは、Omeganceの詳細抑制が人体の部分、特に指や腕のような複雑な領域のアーティファクトに効果的に対処する。一方、FLUX[13]のような過度に平滑化された結果を生成する傾向のある高品質モデルでは、Omeganceの詳細強化が細かいテクスチャや複雑な詳細を復元することでリアリズムを向上させる。
我々は、Omeganceの粒度制御の効果と出力品質への影響を評価するために、102人の参加者を対象に2部構成のユーザー調査を実施した(詳細は補足資料を参照)。パート1では、参加者はOmeganceの有無による3つの画像を粒度に基づいてランク付けするよう求められた。平均ランク精度は、Omeganceの粒度制御の効果を反映している。パート2では、参加者はOmeganceの有無で生成されたペアから高品質な結果を選択し、Omeganceを好む、または同等の品質を主張する投票の割合を報告する。表1の結果は、Omeganceがベースモデルの品質を低下させることなく効果的な粒度制御を達成していることを示している。
Average Rank Accuracy | Output Quality | |
Omegance | 93.94% | 81.98% |
4.2 Image-to-Image Generation
画像間タスクにおいて、参照入力や構造的ガイダンスからの画像構成に関する事前知識により、オメガマスクを選択的に適用してOmeganceを効果的に使用することが可能となる。特定の領域に値を割り当てることで、テクスチャの豊かさと滑らかさを正確に制御し、一部の領域では詳細を強調しながら、他の領域では簡略化することができる。選択されていない領域は明示的に制約されていないにもかかわらず、入力の一貫性を維持するために最小限の変更しか受けないことは注目に値する。これは我々のオメガマスクによる正確な領域ベースの制御を示している。本稿を通じて、すべてのマスク表記において、赤は詳細の強調を、青は詳細の抑制を示している。
SDEdit. SDEdit [15]を使用した画像間編集では、既製のセマンティックセグメンテーションツールであるSAM2 [18]を使用して入力画像のセグメンテーションマスクを生成し、特定のセグメンテーション領域にオメガマスクを適用することを可能にしている。結果は図7に示されている。
ControlNet. ControlNet [28]にオメガマスクを適用した結果を図8に示す。ControlNetの制御信号を用いることで、関心領域を指定するデフォルトマスクを生成できる。主要キャラクターの位置とポーズを推論するポーズ信号の場合、骨格に拡張畳み込みを適用してデフォルトのキャラクターマスクを得る。前景と背景の情報を伝える深度信号の場合、連続的な深度値を使用してマスク内に滑らかな深度方向の遷移を作成できる。あるいは、ユーザーが提供するストロークからカスタムマスクを生成することも常に可能であり、これにより詳細の粒度をより柔軟かつ直感的に制御できる。我々はキャニー信号にカスタムマスクを使用している。
4.3 Text-to-Video Generation
Omeganceの粒度制御能力はテキストから動画への生成タスクにも一般化できる。実験はLatte [14]とAnimateDiff [8]を用いて行われた。 図11(a)では、" increasing"(詳細の抑制)によって背景がより単純になり、テクスチャがより滑らかになる一方、" decreasing"(詳細の強調)はより複雑な背景とシャープなテクスチャに対応している。 さらに、現在のテキストから動画への生成技術では、出力に視覚的なアーティファクトが生じることがしばしばある。これは図11(b)の1行目に示されており、パンダのギターが左側で歪んでいたり、空に意図しないフロー効果が現れたりしている。Omeganceを適用することで、詳細の強調と抑制の効果を通じて、上記のアーティファクトを効果的に解決できることが、図11(b)の2行目に示されている。
5 Conclusion and Limitation
我々は、Omeganceという単一パラメータの簡素yet効果的な手法を導入した。これは拡散モデルの出力における粒度を制御し、レイアウトの複雑さやテクスチャの豊かさに対して細かな空間的・時間的調整を可能にするものである。本手法は訓練不要で、アーキテクチャに依存せず、様々な拡散ベースのタスクにシームレスに統合できる。 広範な実験により、Omeganceがテキストから画像、画像から画像、テキストから動画生成の結果において、詳細度を制御する能力を持つことが実証された。 Omeganceは微妙な粒度操作に優れており、時にはアーティファクトを修正したり現実感を向上させたりすることができるが、基本モデルの生成品質そのものを本質的に改善するものではなく、これが限界として残る。 それにもかかわらず、本稿は制御可能でユーザー主導のコンテンツ生成を進展させ、実生活における拡散ベースの合成の実用的応用を拡大する上で価値があると我々は考える。
References
- Ahn et al. [2024] Donghoon Ahn, Hyoungwon Cho, Jaewon Min, Wooseok Jang, Jungwoo Kim, SeonHwa Kim, Hyun Hee Park, Kyong Hwan Jin, and Seungryong Kim. Self-rectifying diffusion sampling with perturbed-attention guidance. In ECCV, 2024.
- Arnheim [2020] Rudolf Arnheim. Art and Visual Perception. University of California Press, Berkeley, CA, 2nd, rev. and exp. ed., reprint 2020 edition, 2020.
- Brack et al. [2023] Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski, and Kristian Kersting. SEGA: Instructing text-to-image models using semantic guidance. In NeurIPS, 2023.
- Brooks et al. [2023] Tim Brooks, Aleksander Holynski, and Alexei A Efros. InstructPix2Pix: Learning to follow image editing instructions. In CVPR, 2023.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, and Robin Rombach. Scaling rectified flow transformers for high-resolution image synthesis. In ICML, 2024.
- Fan et al. [2023] Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. DPOK: Reinforcement learning for fine-tuning text-to-image diffusion models. In NeurIPS, 2023.
- Garibi et al. [2024] Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or. ReNoise: Real image inversion through iterative noising. In ECCV, 2024.
- Guo et al. [2024] Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, and Bo Dai. AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning. In ICLR, 2024.
- Hertz et al. [2023] Amir Hertz, Ron Mokady, Jay Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-or. Prompt-to-prompt image editing with cross-attention control. In ICLR, 2023.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.
- Hong et al. [2023] Susung Hong, Gyuseong Lee, Wooseok Jang, and Seungryong Kim. Improving sample quality of diffusion models using self-attention guidance. In ICCV, 2023.
- Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. In NeurIPS, 2022.
- Labs [2023] Black Forest Labs. FLUX. https://github.com/black-forest-labs/flux, 2023.
- Ma et al. [2024] Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, and Yu Qiao. Latte: Latent diffusion transformer for video generation. arXiv preprint arXiv:2401.03048, 2024.
- Meng et al. [2022] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. SDEdit: Guided image synthesis and editing with stochastic differential equations. In ICLR, 2022.
- Podell et al. [2024] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. SDXL: Improving latent diffusion models for high-resolution image synthesis. In ICLR, 2024.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In ICML, 2021.
- Ravi et al. [2024] Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, and Christoph Feichtenhofer. SAM 2: Segment anything in images and videos. arXiv preprint arXiv:2408.00714, 2024.
- Rombach et al. [2021] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In CVPR, 2021.
- Sadat et al. [2024] Seyedmorteza Sadat, Manuel Kansy, Otmar Hilliges, and Romann M. Weber. No training, no problem: Rethinking classifier-free guidance for diffusion models. arXiv preprint arXiv:2407.02687, 2024.
- SG161222 [2024] SG161222. RealVisXL V5.0. https://civitai.com/models/139562/realvisxl-v50, 2024.
- Si et al. [2024] Chenyang Si, Ziqi Huang, Yuming Jiang, and Ziwei Liu. FreeU: Free lunch in diffusion U-Net. In CVPR, 2024.
- Song et al. [2021a] Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR, 2021a.
- Song et al. [2021b] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In ICLR, 2021b.
- Wu et al. [2023] Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, and Shiyu Chang. Uncovering the disentanglement capability in text-to-image diffusion models. In CVPR, 2023.
- Xu et al. [2023] Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. ImageReward: Learning and evaluating human preferences for text-to-image generation. In NeurIPS, 2023.
- Yang et al. [2023] Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, and Xiu Li. Using human feedback to fine-tune diffusion models without any reward model. In CVPR, 2023.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023.
Appendix A Representations of and
式2(以下に再掲)は、拡散逆過程における1つのデノイジングステップの一般的な表現を提供している。我々は、異なるデノイジングスケジューラをこの一般的な表現に変換する方法の詳細な公式を提供する。
Appendix B Modified SNR Derivations
DDIMノイズ除去プロセスにおいて、
したがって、逆過程における元のSNRは依然として以下のとおりである: 。
式6は、DDIMノイズ除去方程式に基づく修正SNRを示している。以下に段階的な導出を示す:
式に を代入し、 と の項を分離すると、以下のようになる:
ここで、
したがって、修正SNRは以下のとおりである:
は拡散モデルにおいて単調減少するため、 および となる。したがって、 は常に負であり、 は の増加に伴って増加する。
Appendix C User Study
Omeganceの画像粒度制御と画質保持の効果を実証するため、我々は2部構成のユーザー調査を設計した。
第1部では、各質問において、参加者に3枚の画像が提示される。1枚はベースモデルによって生成され、他の2枚はOmeganceを適用したベースモデルによって生成される。参加者は、自身の観察に最も一致する画像粒度のランク(高から低)を選択するよう求められる。粒度に関する以下の説明が提供される:画像生成における粒度とは、視覚的出力の詳細さとテクスチャの豊かさのレベルを指す。高粒度は複雑なテクスチャ、複雑なパターン、豊かな視覚的密度に対応し、低粒度は滑らかな遷移、最小限の詳細、より単純な構成に関連する。このような設計の背景にある動機は、ユーザーが粒度のランクを正確に区別できれば、Omeganceの画像粒度制御の有効性が証明されるということである。第1部で使用される画像は、SDXL [16] とFLUX [13] を用いて、グローバルOmeganceによって生成される。定量的評価のため、我々は各ランク位置を個別に考慮し、独立して精度を計算する。最終的な平均ランク精度は、全てのランク位置の精度の平均である。
パート2では、Omeganceがベースモデルの品質を損なわず、時には人工物を修正し現実感を向上させることで品質を改善できることを示すことが我々の目的である。我々は、ベースモデルがOmeganceありとなしで生成した2つのコンテンツを提示し、ユーザーにより高品質なものを選択するよう求める。視覚的品質の定義に関する指示は以下の通りである:視覚的品質とは、生成されたコンテンツの全体的な知覚的魅力と一貫性を指し、鮮明さ、現実感、与えられたプロンプトへの忠実性、人工物からの自由度などの側面を包含する。品質競争で50%以上の票を獲得することで、Omeganceがベースモデルと少なくとも同等の品質結果を達成できることを証明するのに十分であると我々は考える。パート2で使用される結果は、SDXL [15]、FLUX [13]、RealVisXL-5.0 [21]、AnimateDiff [8]、およびLatte [14]によって生成されたものである。我々の手法がベースモデルと同等以上の品質を達成したことを示す投票の割合を、我々の品質評価として報告する。
Appendix D Discussion
本節では、粒度において同様の効果を達成する、あるいは我々の設計選択を動機付ける複数の設定について議論する。
D.1 Change Inference Steps
生成出力の粒度に影響を与える直感的なアプローチは、推論ステップ数を調整することである。しかし、我々の実験で観察されたように、ステップ数を線形に増加させても一貫した粒度制御は得られない。図12および13は、SDXL[16]とEuler離散スケジューラ[12]を使用してこれを示している。ステップ数の増加によるレイアウトの複雑さやテクスチャの豊かさの変化は、Omeganceで達成される一貫した効果と比較して不規則なパターンを示している。さらに、ステップ数の変更は画像全体にグローバルに影響を与え、領域特有の調整能力がない。対照的に、Omeganceはオメガマスクとスケジュールを通じて局所的な制御を可能にする。オメガマスクは領域特有の粒度調整を可能にし、選択されていない領域を保持しながら特定の領域の詳細を強調または抑制することができ、オメガスケジュールは異なるデノイジング段階でレイアウトやテクスチャの粒度を洗練することができる。この柔軟性は、異なる領域や要素が様々なレベルの詳細を必要とする実世界のデザインタスクにおいて特に価値がある。さらに、ステップ数の増加は計算オーバーヘッドを追加するが、粒度制御の大幅な改善を保証するものではない。一方、Omeganceは固定の推論スケジュール内で追加コストなしに粒度操作を提供し、計算効率と出力の忠実性を維持する。
要約すると、推論ステップの調整は粒度制御のための粗い機構であり、全体的なデノイジングダイナミクスを変更するが、微調整された制御を提供しない。Omeganceは、既存のデノイジングフレームワーク内で直接操作することにより、追加の計算コストなしに精密で、ユーザー主導の調整を提供する。
D.2 Change Latent Mean
Omeganceでは、の分散を変更する一方で、その平均を慎重に保持している。この設計選択は、潜在平均の変更が最終的にデコードされた出力のカラーシフトにつながるという我々の観察に基づいている。この現象は、潜在拡散モデルにおいてVAEでエンコードされた潜在変数の平均を直接修正することで検証できる [19]。図14(a)の元画像をとし、SD3で使用されているVAEを用いて画像を潜在変数にエンコードし[5]、の平均を直接修正する。潜在平均を増加させた結果と減少させた結果をそれぞれ図14(b)と(c)に示す。これらの結果は、緑チャンネルが平均の変化に特に敏感である一方、赤チャンネルが最も影響を受けにくいことを示している。結果として、平均を増加させると緑色が支配的になり、減少させると赤色が支配的になり、望ましくないカラーシフトが生じる。このような人工的な影響を避けるため、我々はOmeganceの実装において平均保存を確保している。
Appendix E More Implementation Details
本節では、本稿で示されたデモコンテンツを生成するための実装の詳細について説明する。
E.1 Prompts for Demo
我々は大規模言語モデルを使用してプロンプトの生成を支援している。
図1(a):夜明けの静かな湖。雪をかぶった山々と柔らかなピンク色の空が水晶のように澄んだ水面に映り込んでいる。前景には、湖岸に沿って繊細な野花が咲き、小さな木製のボートが静かに漂っている。湖の鏡のように滑らかな表面は、花々やボート、遠くの山々の豊かな細部と対照的であり、すべてが穏やかな朝の光に柔らかく照らされている。
図1(b):星空模様の長い外套を着た賢者の魔法使いが、巨大な木々と柔らかく光る鮮やかなキノコに囲まれた魔法の森の空き地に立っている。彼の周りには、浮遊する魔法の球体と輝く蛍が神秘的な雰囲気を醸し出し、野花やツタに覆われた石が情景に質感を加えている。
図1(c):色とりどりのテントや屋台が立ち並ぶ賑やかな中世の市場。商人たちが香辛料、織物、宝飾品を展示している。石畳の通りが屋台の間を縫うように走り、遠くには地平線に向かって聳え立つ城が見える。
図3 SDXL(左):流れるようなローブを着た優しい癒し手が、静かな森の池のそばに立ち、水面に手を伸ばすと柔らかな光が彼女を包み込む。池の滑らかな表面には彼女の姿と周囲の高い木々が映り込み、苔むした岸辺には小さな鮮やかな野花が点在している。
図3 SDXL(中央):夕暮れ時の静かな日本の禅庭園。苔むした石を取り囲む滑らかな砂紋と、灯籠の温かな光を反射する穏やかに流れる小川がある。
図3 SDXL(右):丸みを帯びた滑らかな壁と、カラフルなボタンや画面で埋め尽くされたコントロールパネルを備えた未来的な宇宙ステーションの内部。洗練されたスペースーツを着た宇宙飛行士たちが無重力状態でゆっくりと浮遊し、周囲には浮かぶ道具や、星図や遠い惑星を映し出す輝くホログラフィックディスプレイがある。
図3 SDXL + FreeU:印象派風に描かれた賑やかな川沿いのカフェ。柔らかく落ち着いた色調の人物たちが、輝く提灯の下に集まっている。川面は光を反射し、滑らかな波紋を作り出し、その色彩が周囲の木々や建物と滑らかに溶け合っている。
図3 RealVisXL-5.0:日の出時の静かな草原。大きなオークの木の下にヴィンテージのピクニックブランケットが広げられている。パステルカラーの野花が柔らかな草の上に咲き誇り、焼きたてのパンや果物が入った籐のピクニックバスケットが、牧歌的な情景に彩りを添えている。
図3 SD3:滑らかに磨かれた床と、深い青と銀色で星座が描かれた巨大なドーム天井を持つ天体観測所。中央には大きな望遠鏡が立ち、周囲には複雑な星図や図表が散らばり、それらは柔らかく輝く星々の光に包まれている。
図3 FLUX:雨の午後の居心地の良いアニメ風カフェ。客たちはテーブルに座って温かい飲み物を楽しみ、大きな窓に雨粒が静かに打ち付けている。柔らかく温かな照明がカフェに歓迎の雰囲気を与え、額縁に入った絵画や本、クッションが散りばめられ、居心地の良い内装に豊かな細部を加えている。
図5:少年がポケモンで遊んでいる。
図6:冬のアルプスの村の素朴な市場。手作りの工芸品、焼き菓子、温かい飲み物を売る屋台が、雪に覆われた木造シャレーの間に並んでいる。背景には松の木と山頂が見え、柔らかな雪が降り積もり、祝祭的で賑やかな雰囲気に魅力を添えている。
図7(上):クリーミーな白い大理石のテーブルに、小さなスミレとデイジーの花が散りばめられている。その上に、薄い金縁の入った古典的な白い皿が置かれている。チョコレートケーキは、ダークチョコレートのカールと鮮やかなベリーをトッピングし、皿の上に美しく配置されており、ケーキの豊かな質感と洗練された優雅な設定との間に印象的なコントラストを生み出している。
図7(下):サングラスをかけたクールな狐が、錆びた水道管にもたれかかっている。
図8 SDXL ポーズ(左):砂漠で踊るダース・ベイダー、高品質。
図8 SDXL ポーズ(右):エルフの戦士姫が豊かな森の空き地に立っている。彼女の鎧は繊細な葉の模様と輝く宝石で飾られている。マントには自然のモチーフが刺繍され、装飾された弓と矢筒が優雅さを加え、自然と高貴さが見事に調和した印象的な姿を作り出している。
図8 SDXL 深度(左):花で飾られたトピアリー植物。
図8 SDXL 深度(右):磨き上げられた金属製の体と青く光る目を持つスリークで未来的なロボット。関節や回路に細かな詳細が施された関節可動式の四肢を持ち、直立している。柔らかな光が表面に反射し、その先進的なデザインと滑らかで流線型のフォルムを際立たせている。
図8 SDXL Canny(左):空中からの眺め、明るい霧に包まれたジャングルにある未来的な研究施設、ハードライティング。
図8 SDXL Canny(右):繊細な銀のペンダントに輝くダイヤモンドが散りばめられ、中央には大きなブリリアントカットのサファイアが配された見事な宝飾品。柔らかな光の中で輝く、細部まで精巧に作り込まれた細い鎖から吊り下げられている。
図8 FLUX Canny(右):花咲く草原の中央に、きらめくクリスタルの邸宅が立っている。その壁は太陽光を屈折させ、鮮やかな虹を作り出している。繊細な桜の木々が、華麗なガラスのドアへと続く石畳の小道に沿って並び、蝶が穏やかな風に舞っている。
図8 FLUX Canny(左):パステルカラーの奇想天外なコテージが、緩やかな傾斜の屋根と丸みを帯びた窓を持ち、巨大な花々の鮮やかな庭園の中に佇んでいる。石畳の小道がアーチ型の木製ドアへと続き、軒先からはきらめく灯りが吊るされ、黄金色の午後の太陽の下で柔らかく輝いている。
図9(上):花で満たされたガラスの花瓶。
図9(下):バスケットに入った子猫。
図10:ベンチの中央に置かれたガラスの瓶に、緩やかにアレンジされた野花の花束が入っている。花びらや葉が瓶の縁からこぼれ落ちている。花々の柔らかな質感が、瓶とベンチの構造的な要素とバランスを取り、優雅さを醸し出している。
E.2 Negative Prompt
我々は、生成品質を向上させるために、適用可能な場合にはネガティブプロンプトを使用する: 「歪んだ線、変形した形状、不均一なグリッドパターン、不規則な幾何学、ずれた対称性、低品質、悪品質」。