OminiControl: Minimal and Universal Control for Diffusion Transformer
Abstract
本稿では、事前学習済みの拡散トランスフォーマー(DiT)モデルに画像条件を統合する、高度に汎用性があり、パラメータ効率の良いフレームワークであるOminiControlを紹介する。 OminiControlの核心は、パラメータ再利用メカニズムにある。これにより、DiTは自身を強力なバックボーンとして使用して画像条件をエンコードし、柔軟なマルチモーダル注意プロセッサでそれらを処理することが可能となる。 複雑なアーキテクチャを持つ追加のエンコーダモジュールに大きく依存する既存の手法とは異なり、OminiControlは (1) わずか%の追加パラメータで注入された画像条件を効果的かつ効率的に組み込み、(2) 被写体駆動生成やエッジ、深度などの空間的に整列した条件を含む、幅広い画像条件付けタスクを統一的な方法で扱う。 注目すべきことに、これらの能力はDiT自体が生成した画像を用いて訓練することで達成され、これは特に被写体駆動生成に有益である。 広範な評価により、OminiControlが被写体駆動および空間的に整列した条件付き生成の両方において、既存のUNetベースおよびDiT適応モデルを凌駕することが実証された。 さらに、我々は訓練データセットSubjects200Kを公開する。これは20万枚以上の同一性の一貫した画像からなる多様なコレクションであり、被写体一貫性のある生成の研究を進めるための効率的なデータ合成パイプラインも併せて提供する。 111コードとデータセットはhttps://github.com/Yuanshi9815/OminiControlで入手可能である。
1 Introduction
拡散モデル[9, 28, 25]は、視覚生成の分野に革命をもたらし、画像品質と多様性の面で従来のGenerative Adversarial Networks (GANs)[6]のようなアプローチを大きく上回る顕著な能力を示している。 これらのモデルは非常にリアルな画像の生成に優れているが、重要な課題が残されている。それは、多様で複雑なユーザーの要求に対応するために、生成プロセスを正確かつ柔軟に制御することを可能にすることである。
テキストベースの条件付けは、制御可能な生成を進歩させる上で重要な基盤となってきた[28, 25, 13, 2, 23, 35]。これは、ユーザーが望む出力を指定するための直感的なインターフェースを提供している。 しかし、テキストプロンプトのみでは、ユーザーが制御したい正確な空間的詳細や構造的属性を伝えることがしばしば困難である。 そのため、最近の研究では、拡散モデルを誘導するための補完的な条件付けモダリティが探求されており、画像ベースの制御が特に効果的なアプローチとして浮上している[41, 39, 22, 43, 15]。 このマルチモーダルな条件付け戦略により、生成プロセスをより詳細かつ正確に制御することが可能となり、純粋にテキストベースのインターフェースに内在する限界に対処している。
現在の画像条件付け手法は、大きく空間的に整列したアプローチと空間的に整列していないアプローチに分類できる。 スケッチから画像への変換やインペインティングなどの空間的に整列したタスクでは、条件付け画像と出力画像の間に直接的な対応関係が必要であり、通常はControlNet[41]のような空間を保持する方法で条件付け特徴を注入することで達成される。 一方、IP-Adapter[39]で実証されているような被写体駆動生成やスタイル転送を含む空間的に整列していないアプリケーションでは、しばしばCLIP[27]のような事前学習済みエンコーダーを使用して、クロスアテンションメカニズムを通じて統合するためのグローバル特徴を抽出する。
既存の画像条件付きアプローチの有効性にもかかわらず、それらには効率性と柔軟性を妨げるいくつかの制限がある[41, 39, 22]。 第一に、既存の手法の大部分はUNetベースのアーキテクチャ向けに特別に設計されている[29, 41, 22, 39, 31, 42, 43, 40, 24, 16]。これはStable Diffusionモデル[28, 25]に見られるとおりである。これらのアプローチはUNetのエンコーダ-デコーダ構造とうまく機能するが、より高度な画像生成品質を示したDiffusion Transformer (DiT)モデル[23]には効果的に適用できない可能性がある[13, 2]。 さらに、現在のアプローチは通常、空間的に整列したタスク[22, 43, 41]または空間的に整列していないタスク[39, 42, 17, 15, 12]のいずれかに特化しており、両方の制御タイプを効果的に扱う統一されたアーキテクチャが欠如している。この特化により、実践者は異なる制御シナリオに対して異なる手法を採用する必要があり、システムの複雑性と実装のオーバーヘッドが増加する。 さらに、これらの手法は追加のネットワーク構造に大きく依存しており[39, 42, 22, 43, 41, 17]、これにより相当なパラメータオーバーヘッドが導入される。
これらの制限に対処するため、我々はDiTアーキテクチャに画像ベースの制御を組み込むためのパラメータ効率的なアプローチを提案する[23]。 本手法は、条件付け画像を処理するためにモデルの既存のVAEエンコーダ[28]を再利用する。 ノイズのある画像トークンと同じトークン処理パイプラインに従い、エンコードされた特徴量に学習可能な位置埋め込み[34]を追加し、潜在ノイズと共にデノイジングネットワークにシームレスに統合する。 この設計により、DiTのトランスフォーマーブロック全体を通じて、条件と生成トークン間の直接的なマルチモーダル注意相互作用[23, 30]が可能となり、効率的な情報交換と制御信号の伝播を促進する。
我々は、高性能なDiT構造の拡散モデルであるFLUX.1-dev[13]に本手法を実装した。これは120億のパラメータを含む大規模モデルである。 エッジガイド生成、深度認識合成、領域特定編集、アイデンティティ保持生成に関する広範な実験により、我々のDiTベースのアプローチが、UNetベースの実装[41, 39, 7]およびFLUX.1モデルに対するコミュニティの適応[14, 37]と比較して、より良い結果をもたらすことが示された。
アイデンティティ保持生成のために、我々は高品質でアイデンティティ一貫性のある画像ペアを生成する新規データ合成パイプラインを開発した。 このパイプラインを使用して、20万枚以上の多様な画像からなる包括的なデータセットを作成した。 この方向での将来の研究を促進するため、我々はデータセットと完全なパイプライン実装の両方をオープンソースリソースとして公開する予定である22詳細は補足資料に記載されている。。
要約すると、我々の貢献は以下の通りである:
-
1.
我々は、Diffusion Transformer (DiT)モデルにおいて画像条件付き制御を可能にするパラメータ効率の良い手法を提案する。この手法は、空間的に整列した制御と空間的に整列していない制御の両方を統一的なフレームワーク内で実現する。
-
2.
我々は、エッジガイド生成、深度認識合成、領域特定編集、アイデンティティ保持生成など、多様な制御タスクにわたる広範な実験を通じて、我々のアプローチの有効性を実証する。UNet実装とそのDiT適応の両方において、既存の手法を一貫して上回る性能を示す。
-
3.
我々は、20万枚以上の被写体一貫性のある高品質画像データセットSubjects200Kを開発し公開する。また、効率的なデータ合成パイプラインも提供する。これにより、被写体一貫性のある生成タスクのさらなる探求のための貴重なリソースを研究コミュニティに提供する。
2 Related works
2.1 Diffusion-based models
拡散ベースの手法は、画像生成のための強力なフレームワークとして台頭してきた[9, 28]。これらの手法は、テキストから画像への合成[28, 2, 33]、画像から画像への変換[32]、画像編集[20, 1]など、多様なタスクにおいて成功を収めている。 最近の進歩により、品質と効率の両面で大幅な改善が見られ、特に潜在拡散モデル[28]の導入が注目される。 生成能力をさらに向上させるため、大規模なトランスフォーマーアーキテクチャがこれらのフレームワークに統合され、DiT[23, 2, 13, 3]のような先進的なモデルが生まれている。 これらのアーキテクチャの革新を基に、FLUX[13]はトランスフォーマーベースの設計とフローマッチング目的関数[18]を組み合わせ、最先端の生成性能を達成している。
2.2 Controllable generation with diffusion models
制御可能な生成は、拡散モデルの文脈で広く研究されてきた。 テキストから画像への変換モデル[28, 25]は条件付き生成の基礎を確立し、一方で画像などの追加の制御信号を組み込むための様々なアプローチが開発されてきた。 注目すべき手法には、拡散モデルにおいて空間的に整列された制御を可能にするControlNet [41]や、軽量なアダプターで効率を改善するT2I-Adapter [22]がある。UniControl [26]は、Mixture-of-Experts (MoE)を使用して異なる空間的条件を統合し、モデルサイズをさらに削減している。しかしながら、これらの手法は、ノイズ除去ネットワークの隠れ状態に空間的に条件情報を追加することに依存しており、本質的に被写体駆動型生成のような非空間的タスクに対する有効性が制限されている。IP-Adapter [39]は、追加のエンコーダーを通じてクロスアテンションを導入することでこの問題に対処し、SSR-Encoder [42]は画像条件付きタスクにおけるアイデンティティ保持をさらに強化している。 これらの進展[15, 19, 5]にもかかわらず、空間的に整列されたタスクと非整列タスクの両方に対する統一的な解決策は依然として見出されていない。
3 Methods
3.1 Preliminary
FLUX.1 [13]、Stable Diffusion 3 [28]、PixArt [2]などのアーキテクチャで採用されているDiffusion Transformer (DiT)モデル [23]は、ノイズの多い画像トークンを反復的に精製するためにトランスフォーマーブロックのデノイジングネットワークを使用している。
各トランスフォーマーブロックは、2種類のトークンを処理する:ノイズの多い画像トークンとテキスト条件トークンである。ここで、は埋め込み次元、とはそれぞれ画像トークンとテキストトークンの数である(図2)。これらのトークンは隠れ状態とに埋め込まれ、トランスフォーマーブロック全体を通じて一貫した形状を維持する。
各DiTブロックでは、とを正規化した後、コアのMM-Attentionモジュール [30]によって処理される。このモジュールは、Rotary Position Embedding (RoPE) [34]を使用してトークン間の位置依存性を組み込む。2次元グリッドの位置にあるトークンに対して、RoPEはクエリとキーの射影に回転行列を適用する:
(1) | ||||
(2) |
ここで、は位置における回転行列である。同様に、テキスト条件トークンのクエリとキーの射影も同じ方法で定義され、FLUX.1ではすべてのテキストトークンの位置がに設定される。
RoPEを適用した後、両方のトークンタイプからのクエリ、キー、バリューが連結され、統合された行列、、を形成し、結合されたトークンセットを表現する。その後、MM-Attention操作は以下のように計算される:
(3) |
これにより、注意機構を通じて画像とテキスト条件トークン間の相互作用が可能になる。
3.2 Image condition integration
我々のアプローチでは、まず条件画像をモデルのVAEを通してエンコードし、ノイズ画像トークンと同じ潜在空間に投影してを形成する。
ControlNet [41]やT2I-Adapter [22]のような従来の手法では、条件画像を空間的に整列させ、その隠れ状態をノイズ画像トークンの隠れ状態に直接加算することで組み込んでいる:
(4) |
ここで、は更なる処理のための結合された隠れ状態を表し、は条件画像からの隠れ状態である。 この手法は空間的に整列したタスクに対しては効果的であるが、2つの主要な制限がある:(1)空間的に整列していないシナリオを扱う際の柔軟性に欠け、(2)空間的に整列している場合でも、隠れ状態の直接的な加算はトークン間の相互作用を制限し、モデルの性能を潜在的に制限する可能性がある。
対照的に、我々の手法では、空間的に整列していない制御タスクを可能にし、より大きな条件付け柔軟性を提供するために、条件画像トークンをテキストとノイズ画像トークンと同様に処理し、統一されたシーケンスに統合する:
(5) |
ここで、はノイズ画像トークン、テキストトークン、および条件画像トークンの連結されたシーケンスを表す。この統一されたアプローチにより、特殊な処理経路なしにマルチモーダル注意機構[30]に直接参加することが可能になる(図2に示す)。 直接加算アプローチよりも優れた結果を達成する。
3.3 Adaptive position embedding
条件画像の統合には、条件画像とターゲット画像の間の効果的な相互作用を確保するために、位置情報の慎重な考慮が必要である。 従来の手法では、条件画像と出力画像の間の厳密な空間的整列を仮定することが多く、非整列タスクへの適用が制限されていた。 さらに、条件トークンとターゲットトークンの相対的な位置関係は、モデルの学習効率と汎化能力に大きな影響を与える可能性がある。 我々の統一されたシーケンス設計では、条件トークンが他のトークンと連結されているため、異なる位置エンコーディング戦略を探索する柔軟性がある。
FLUX.1のTransformerでは、各トークンに空間情報をエンコードするための対応する位置インデックスが割り当てられる。 512512の入力画像に対して、VAE [11] エンコーダーはまずそれを潜在空間に投影し、その後、潜在表現を3232のトークングリッドに分割する。各トークンには、(ここで)という一意の二次元位置インデックスが与えられる。 このインデックス付けスキームは、潜在空間において元の画像の空間構造を保持し、一方でテキストトークンはという固定の位置インデックスを維持する。
空間的に整列したタスクに対して、我々の初期アプローチは、条件トークンに元の画像の対応するトークンと同じ位置埋め込みを割り当てることであった。 しかし、被写体駆動生成のような空間的に非整列のタスクに対しては、我々の実験により、条件トークンの位置インデックスをシフトすることで収束が速くなることが明らかになった(図4(b))。 具体的には、条件画像トークンのインデックスを(ここでかつ)にシフトし、元の画像トークンとの空間的な重複がないようにしている。
3.4 Condition strength factor
我々が採用した統一的注意機構は、柔軟なトークン間相互作用を可能にするだけでなく、条件画像の影響を正確に制御することも可能にする。 具体的には、推論時に条件画像の効果を手動で調整できる方法を設計した。 与えられた強度因子に対して、を設定すると条件画像の影響が除去され、元の入力のみに基づく出力が得られる。 では、出力は条件画像を完全に反映し、が1を超えて増加すると、条件の効果がさらに顕著になる。
この制御可能性を実現するために、我々は元のMM-Attention操作にバイアス項を導入する。具体的には、式3を以下のように修正する:
(6) |
ここで、biasは強度因子に基づいて条件トークンと他のトークン間の注意の重みを調整するように設計されている。 バイアス項は行列として構築され、はテキストトークンの数、はノイズ画像トークンと条件画像トークンの数をそれぞれ表す。行列は以下の構造を持つ:
(7) |
この設計により、強度因子はノイズ画像トークンと条件画像トークン間の注意の重みにのみ影響を与え、テキストトークンおよびモダリティ内の相互作用に対する元の注意パターンを維持する。
3.5 Subjects200K datasets
被写体一貫性のある生成のためのモデルの訓練には、通常、ポーズ、照明、その他の属性に変化がある一方で、アイデンティティの一貫性を維持するペアの画像が必要である。 IP-Adapterのような以前の手法[39]では、条件付けとターゲットのペアに同一の画像を使用しており、これらのアプローチには効果的である。 しかし、我々のフレームワークでは、このセットアップは過学習を引き起こし、モデルが入力とほぼ同一の出力を生成する原因となる。
これらの制限を克服するため、我々は被写体のアイデンティティを保持しつつ自然な変化を取り入れた画像を特徴とするデータセットを開発した。 既存のデータセット[31, 12, 15, 17]は同様のニーズに対応しているが、品質または規模のいずれかに制約がある場合が多い。 そのため、我々は慎重に作成されたプロンプトから視覚的に関連する画像のペアを生成するFLUXの固有の能力を活用した新しい合成パイプラインを提案する。
我々のパイプラインはChatGPT-4oを利用して2万以上の多様な画像説明を生成し、これらがFLUXを導いて20万枚以上の画像を生成する(図6)。 生成された画像はChatGPT-4oのビジョン機能を使用して品質評価を受け、最終的なデータセットの一貫性と多様性の両方を確保している。 キュレーションされたデータセットと完全な生成パイプラインは公開される333詳細は補足資料に記載されている。データセットとコードはhttps://github.com/Yuanshi9815/Subjects200Kで入手可能である。
4 Experiment
4.1 Setup
タスクと基本モデル。 我々は、条件付き生成タスクの2つのカテゴリーで我々の手法を評価する:空間的に整列したタスク(Cannyから画像への変換、深度から画像への変換、マスクベースのインペインティング、および色付けを含む)と被写体駆動型生成である。 我々の手法は、画像生成のための潜在整流フロートランスフォーマーモデルであるFLUX.1[13]を基盤として構築している。 デフォルトでは、空間的に整列したタスクの画像生成にFLUX.1-devを使用する。被写体駆動型生成タスクでは、より良好な視覚品質を生成する傾向が観察されたため、FLUX.1-schnellに切り替える。
Condition | Model | Method | Controllability | General Quality | Text Consistency | |||
Canny | SD1.5 | ControlNet | 0.34 | 18.74 | 0.35 | 0.45 | 67.81 | 0.75 |
T2I-Adapter | 0.22 | 20.06 | 0.35 | 0.39 | 67.88 | 0.74 | ||
FLUX.1 | ControlNet | 0.21 | 98.68 | 0.25 | 0.37 | 56.90 | 0.53 | |
Ours | 0.38 | 20.63 | 0.40 | 0.61 | 75.91 | 0.76 | ||
Depth | SD1.5 | ControlNet | 923 | 23.02 | 0.34 | 0.47 | 70.73 | 0.726 |
T2I-Adapter | 1560 | 24.72 | 0.27 | 0.39 | 69.99 | 0.72 | ||
FLUX.1 | ControlNet | 2958 | 62.20 | 0.26 | 0.38 | 66.84 | 0.54 | |
Ours | 903 | 27.26 | 0.39 | 0.55 | 75.06 | 0.728 | ||
Deblur | FLUX.1 | ControlNet | 572 | 30.38 | 0.74 | 0.31 | 54.37 | 0.78 |
Ours | 132 | 11.49 | 0.87 | 0.39 | 67.63 | 0.87 | ||
Colorization | FLUX.1 | ControlNet | 351 | 16.27 | 0.64 | 0.43 | 70.95 | 0.85 |
Ours | 24 | 10.23 | 0.73 | 0.43 | 70.74 | 0.90 | ||
Mask | SD1.5 | ControlNet | 7588 | 13.14 | 0.40 | 0.41 | 67.22 | 0.84 |
FLUX.1 | Ours | 6248 | 15.66 | 0.48 | 0.45 | 72.61 | 0.80 |
実装の詳細。 我々の手法は、デフォルトのランクが4のLoRA[4]を使用して基本モデルを微調整する。モデルの元の能力を保持し、柔軟性を達成するために、非条件トークンを処理する際のLoRAスケールはデフォルトで0に設定される。
訓練。 我々のモデルは、バッチサイズ1で訓練され、8ステップにわたる勾配累積(実効バッチサイズ8)を行う。 我々は、セーフガードウォームアップとバイアス補正を有効にしたProdigy最適化器[21]を使用し、重み減衰を0.01に設定する。 実験は2台のNVIDIA H100 GPU(各80GB)で実施される。空間的に整列したタスクでは、モデルは50,000イテレーションで訓練され、被写体駆動型生成モデルは15,000イテレーションで訓練される。
ベースライン。 空間的に整列したタスクについては、我々の手法を元のControlNet[41]およびStable Diffusion 1.5上のT2I-Adapter[22]、さらにControlNetのFLUX.1実装であるControlNetPro[14]と比較する。 被写体駆動型生成については、IP-Adapter[39]と比較し、そのFLUX.1実装[37]を評価する。
評価指標。 我々は、空間的に整列したタスクと被写体駆動型生成の両方でモデルを評価する。 空間的に整列したタスクについては、生成品質と制御可能性の2つの側面を評価する。 生成品質は、視覚的忠実性についてFID[8]、SSIM、MAN-IQA[38]、およびMUSIQ[10]を用いて測定し、意味的一貫性についてはCLIPスコア[27]を用いる。 制御可能性については、エッジ条件付き生成では抽出されたエッジマップと入力エッジマップ間のF1スコアを計算し、他のタスクでは抽出された条件マップと元の条件マップ間のMSEを計算する(深度にはDepth Anythingを使用し、色付けには色チャンネル分離を使用するなど)。 被写体駆動型生成については、被写体特性の保持(アイデンティティ保持、素材品質、色忠実度、自然な外観)と要求された修正の正確性の両方を評価する5基準のフレームワークを提案し、すべての評価はGPT-4oのビジョン機能を通じて実施され、体系的な評価を確保する。 詳細な評価方法は付録B.1に記載されている。
評価プロトコル。 我々は2つのデータセットで評価を実施した。 空間的に整列したタスクについては、COCO 2017検証セット(5,000画像)を512512にリサイズし、タスク固有の条件と関連するキャプションをプロンプトとして使用し、固定シード42で評価する。 被写体駆動型生成については、DreamBooth[31]データセットから750のテキスト-条件ペア(30被写体 × 25プロンプト)を5つの異なるシードでテストし、被写体ごとに1つの選択された画像を条件として使用する。
4.2 Main result
空間的に整列されたタスク 表1に示すように、我々は5つの空間的に整列されたタスクにおいて、既存のアプローチと比較して我々の手法を包括的に評価した。 我々の手法は、Canny-to-image生成において0.38という最高のF1スコアを達成し、SD1.5ベースの手法であるControlNet [41]とT2I-Adapter [22]、さらにFLUX.1ベースのControlNetPro [14]を大きく上回っている。 一般的な品質指標に関しては、我々のアプローチはほとんどのタスクで一貫して優れており、特にSSIM [36]、MAN-IQA [38]、MUSIQ [10]スコアにおいて顕著に優れたパフォーマンスを示している。 デブラーや色付けなどの困難なタスクでは、我々の手法は大幅な改善を達成している:MSEはControlNetProと比較してそれぞれ77%と93%減少し、FIDスコア [8]はデブラーにおいて30.38から11.49に改善している。 CLIPスコア指標 [27]は、我々の手法がすべてのタスクにおいて高いテキストと画像の一貫性を維持していることを示しており、より良い制御と視覚的品質を達成しながら、意味的整合性を効果的に保持していることを示唆している。 図7に示すように、我々の手法は色付けタスクにおいてより鮮明な詳細とより忠実な色再現を生成し、エッジガイド生成とデブラーのシナリオにおいてより良い構造的忠実性を維持している。
被写体駆動型生成 図8は、既存のベースラインとの包括的な比較を示している。 我々の手法は、特にアイデンティティ保持と修正精度において優れたパフォーマンスを示している。 ランダムシードの平均では、我々の手法はIP-Adapter (FLUX)の57.7%に対して75.8%の修正精度を達成し、同時にIP-Adapter (SD 1.5)の29.4%に対して50.6%のアイデンティティ保持を維持している。 この優位性は最良のシードのシナリオでさらに増幅され、90.7%の修正精度と82.3%のアイデンティティ保持を達成し、最強のベースラインをそれぞれ15.8ポイントと18.0ポイント上回り、効果的な被写体忠実性編集を実証している。 これらの定量的結果は、付録B.1に示されるユーザー調査によってさらに裏付けられている。
パラメータ効率の比較 表2に示すように、我々のアプローチは既存の手法と比較して顕著なパラメータ効率を達成している。 12Bパラメータを持つFLUX.1モデルに対して、我々の手法は学習可能なパラメータをわずか14.5M(約0.1%)必要とするだけであり、これはControlNet(27.5%)やIP-Adapter(7.6%)と比較して大幅に少ない。 FLUX.1のオリジナルのVAEエンコーダーを使用する場合でも、我々の手法はわずか0.4%の追加パラメータで高い効率を維持しており、我々のパラメータ効率の高い設計の有効性を示している。
Methods | Base model | Parameters | Ratio |
ControlNet | SD1.5 / 860M | 361M | 42% |
T2I-Adapter | 77M | 9.0% | |
IP-Adapter | 449M | 52.2% | |
ControlNet | FLUX.1 / 12B | 3.3B | 27.5% |
IP-Adapter | 918M | 7.6% | |
Ours | FLUX.1 / 12B | 14.5M / 48.7M w/ Encoder | 0.1% / 0.4% w/ Encoder |
4.3 Empirical studies
訓練データの影響。
被写体駆動型生成において、我々のモデルは被写体(例えばぬいぐるみや物体)の参照画像とテキスト記述を入力として受け取り、テキストガイダンスに従いつつ主要な特徴を保持しながら、同じ被写体の新しい画像を生成することを目指している。
セクション3.5で説明した我々のSubjects200Kデータセットの有効性を検証するため、我々はこのタスクに対する2つの訓練戦略を比較した。 第一のアプローチは従来のデータ拡張に依存し、元の画像にランダムなクロッピング、回転、スケーリング、およびコントラスト、彩度、色の調整を適用する。 第二のアプローチは我々のSubjects200Kデータセットを利用する。 図9に示すように、データ拡張で訓練されたモデルは、最小限の変更で入力条件を複製することしか学習していない。 1行目では、タコのぬいぐるみを明るい部屋の設定に単に配置し、その外観と姿勢を正確に維持している。 同様に、2行目では、窓際に配置するという指示にもかかわらず、黄色の目覚まし時計がほぼ同一の詳細で再現されている。 対照的に、我々のSubjects200Kで訓練されたモデルは、テキストプロンプトに忠実に従いながら、被写体の多様かつ一貫した視点を生成する能力を示している。
条件強度分析。 我々は定性的実験を通じて条件強度制御を評価した。図10は、強度因子を変化させて生成した結果を示している。 結果は、がCanny-to-image生成のような空間的に整列したタスクと、被写体駆動型生成のような空間的に整列していないタスクの両方で生成プロセスを効果的に制御し、条件の影響に対する柔軟な制御を可能にすることを示している。
LoRAランクの影響。 我々はCanny-to-imageタスクに対して、異なるLoRAランク(1、2、4、8、16)で広範な実験を行った。 表3に示すように、我々の実験はLoRAランクを増やすことで一般的にモデルのパフォーマンスが向上し、ランク16が画像品質(FIDとSSIMで測定)、条件制御能力(F1スコアで測定)など複数の側面で最良の結果を達成し、同時にテキスト-画像の一貫性(CLIPスコアで測定)においても競争力のある性能を維持することを示している。 特筆すべきは、より小さなランク(例えばランク1)でも、モデルは競争力のある性能を示し、特にテキスト-画像の整合性では0.765という最高のCLIPスコアを達成しており、限られたパラメータでも我々のアプローチの効率性を示している。
Study | Setting | FID | SSIM | F1 Score | CLIP Score |
LoRA Rank | 1 | 21.09 | 0.412 | 0.385 | 0.765 |
2 | 21.28 | 0.411 | 0.377 | 0.751 | |
4 | 20.63 | 0.407 | 0.380 | 0.761 | |
8 | 21.40 | 0.404 | 0.3881 | 0.761 | |
16 | 19.71 | 0.425 | 0.407 | 0.764 | |
Condition Blocks | Early | 25.66 | 0.369 | 0.23 | 0.72 |
Full | 20.63 | 0.407 | 0.38 | 0.76 |
条件付け深度。 FLUX.1のトランスフォーマーアーキテクチャは、異なるモダリティトークン(テキストと画像)に対して別々の正規化モジュールを使用する初期ブロックと、すべてのトークンに対して統一された正規化を共有する後期ブロックという2つの異なるタイプのブロックを特徴としている。 表3に示すように、実験では条件信号の統合をこれらの初期ブロックのみに制限すると、生成プロセスに対する制御可能性が不十分であることが明らかになった。 これは、条件信号がトランスフォーマースタック全体に影響を与えることを許可することが、出力に対する望ましい制御レベルを達成するために重要であることを示唆している。 特に、この発見は、UNetベースのアーキテクチャで効果的であった、主に初期ブロックに条件信号を挿入するという以前のアプローチ[14, 37, 39, 41, 22]が、FLUX.1のようなDiTベースのモデルには完全には適用できない可能性があることを示している。
5 Conclusion
OmniControlは、統一されたトークンアプローチを用いて、追加のモジュールなしで多様なタスクにわたる拡散トランスフォーマーの画像条件付き制御を、パラメータ効率的に提供する。 我々の手法は従来のアプローチを凌駕し、新たなSubjects200Kデータセット(20万枚の高品質で被写体一貫性のある画像を特徴とする)は、被写体一貫性のある生成における進歩を支援する。 結果は、拡散モデルにおけるOmniControlのスケーラビリティと有効性を確認している。
References
- Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18208–18218, 2022.
- Chen et al. [2023] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-: Fast training of diffusion transformer for photorealistic text-to-image synthesis. arXiv preprint arXiv:2310.00426, 2023.
- Chen et al. [2024] Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, and Zhenguo Li. Pixart-delta: Fast and controllable image generation with latent consistency models. arXiv preprint arXiv:2401.05252, 2024.
- Devalal and Karthikeyan [2018] Shilpa Devalal and A Karthikeyan. Lora technology-an overview. In 2018 second international conference on electronics, communication and aerospace technology (ICECA), pages 284–290. IEEE, 2018.
- Gal et al. [2022] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022.
- Goodfellow et al. [2020] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Communications of the ACM, 63(11):139–144, 2020.
- Hate [2024] Jacky Hate. Text-to-image-2m dataset. https://huggingface.co/datasets/jackyhate/text-to-image-2M, 2024.
- Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
- Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
- Ke et al. [2021] Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, and Feng Yang. Musiq: Multi-scale image quality transformer. In Proceedings of the IEEE/CVF international conference on computer vision, pages 5148–5157, 2021.
- Kingma [2013] Diederik P Kingma. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
- Kumari et al. [2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1931–1941, 2023.
- Labs [2024a] Black Forest Labs. Flux: Official inference repository for flux.1 models, 2024a. Accessed: 2024-11-12.
- Labs [2024b] Shakker Labs. Flux.1-dev-controlnet-union-pro. https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro, 2024b.
- Li et al. [2024a] Dongxu Li, Junnan Li, and Steven Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. Advances in Neural Information Processing Systems, 36, 2024a.
- Li et al. [2025] Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, and Chen Chen. Controlnet++: Improving conditional controls with efficient consistency feedback. In European Conference on Computer Vision, pages 129–147. Springer, 2025.
- Li et al. [2024b] Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. Photomaker: Customizing realistic human photos via stacked id embedding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8640–8650, 2024b.
- Lipman et al. [2022] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. arXiv preprint arXiv:2210.02747, 2022.
- Ma et al. [2024] Jian Ma, Junhao Liang, Chen Chen, and Haonan Lu. Subject-diffusion: Open domain personalized text-to-image generation without test-time fine-tuning. In ACM SIGGRAPH 2024 Conference Papers, pages 1–12, 2024.
- Meng et al. [2021] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073, 2021.
- Mishchenko and Defazio [2024] Konstantin Mishchenko and Aaron Defazio. Prodigy: An expeditiously adaptive parameter-free learner. In Forty-first International Conference on Machine Learning, 2024.
- Mou et al. [2024] Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 4296–4304, 2024.
- Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
- Peng et al. [2024] Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, and Jiaya Jia. Controlnext: Powerful and efficient control for image and video generation. arXiv preprint arXiv:2408.06070, 2024.
- Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
- Qin et al. [2023] Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, et al. Unicontrol: A unified diffusion model for controllable visual generation in the wild. arXiv preprint arXiv:2305.11147, 2023.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
- Rombach et al. [2021] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2021.
- Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pages 234–241. Springer, 2015.
- Ruan et al. [2023] Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, and Baining Guo. Mm-diffusion: Learning multi-modal diffusion models for joint audio and video generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10219–10228, 2023.
- Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
- Saharia et al. [2022a] Chitwan Saharia, William Chan, Huiwen Chang, Chris Lee, Jonathan Ho, Tim Salimans, David Fleet, and Mohammad Norouzi. Palette: Image-to-image diffusion models. In ACM SIGGRAPH 2022 conference proceedings, pages 1–10, 2022a.
- Saharia et al. [2022b] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022b.
- Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.
- Tian et al. [2024] Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, and Liwei Wang. Visual autoregressive modeling: Scalable image generation via next-scale prediction. arXiv preprint arXiv:2404.02905, 2024.
- Wang et al. [2004] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.
- XLabs-AI [2024] XLabs-AI. Flux-ip-adapter. https://huggingface.co/XLabs-AI/flux-ip-adapter, 2024.
- Yang et al. [2022] Sidi Yang, Tianhe Wu, Shuwei Shi, Shanshan Lao, Yuan Gong, Mingdeng Cao, Jiahao Wang, and Yujiu Yang. Maniqa: Multi-dimension attention network for no-reference image quality assessment. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1191–1200, 2022.
- Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
- Zavadski et al. [2023] Denis Zavadski, Johann-Friedrich Feiden, and Carsten Rother. Controlnet-xs: Designing an efficient and effective architecture for controlling text-to-image diffusion models. arXiv preprint arXiv:2312.06573, 2023.
- Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023.
- Zhang et al. [2024] Yuxuan Zhang, Yiren Song, Jiaming Liu, Rui Wang, Jinpeng Yu, Hao Tang, Huaxia Li, Xu Tang, Yao Hu, Han Pan, et al. Ssr-encoder: Encoding selective subject representation for subject-driven generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8069–8078, 2024.
- Zhao et al. [2024] Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao, Shaozhe Hao, Lu Yuan, and Kwan-Yee K Wong. Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.
Appendix A Details of Subjects200K datasets
我々は、以前のデータセット[31, 12, 15, 17]におけるスケールと画像品質の制限に対処するために構築された包括的な合成データセットを提示する。我々のアプローチはFLUX.1-dev [13] を活用し、様々な条件下で同一の被写体の高品質で一貫性のある画像を生成している。
Subjects200Kデータセットは現在、類似のパイプラインを使用して生成された2つのスプリットで構成されている。 スプリット1は異なるシーンにおける物体のペア画像を含み、スプリット2は各物体のシーン画像とそれに対応するスタジオ写真をペアにしている。 方法論的な類似性のため、我々は主にスプリット2の合成プロセスと詳細について説明するが、両方のスプリットが公開されている。 我々の完全なSubjects200Kデータセットは、このリンクから完全にアクセスできる。
A.1 Generation pipeline
我々のデータセット生成プロセスは、説明文生成、画像合成、品質評価の3つの主要段階で構成されている。
説明文生成 我々はChatGPT-4oを用いて、説明文の階層構造を作成した: まず、家具、乗り物、電子機器、衣類などを含む42の多様なオブジェクトカテゴリーを生成した。 各カテゴリーに対して複数のオブジェクトインスタンスを作成し、合計4,696の固有オブジェクトとなった。各オブジェクトエントリは以下で構成される: (1) 簡潔な説明、 (2) 8つの多様なシーン説明、 (3) 1つのスタジオ写真説明。 図S2は、我々の構造化された説明文フォーマットの代表的な例を示している。
画像合成 我々は、FLUXの同一被写体を含むペア画像生成能力を活用するためのプロンプトテンプレートを設計した。我々のテンプレートは、簡潔なオブジェクト説明と2つの異なるシーン説明を組み合わせて包括的なプロンプトを合成し、被写体の一貫性を確保しつつ環境の変化を導入する。
詳細なプロンプト構造は図S3に示されている。 各プロンプトに対して、画像サイズを1056×528ピクセルに設定し、異なるランダムシードを用いて5枚の画像を生成し、データセットの多様性を確保した。トレーニングプロセスでは、まずペア画像を水平方向に分割し、その後中央部分を切り取って512×512ピクセルの画像ペアを得た。このパディング戦略は、生成された画像が正確に二分されていない場合に対処するために実装され、分割画像の誤った半分に潜在的なアーティファクトが現れるのを防ぐためである。
品質評価 我々はChatGPT-4oのビジョン機能を活用して、FLUX.1-devによって生成された画像の品質を厳密に評価した。評価は複数の重要な側面に焦点を当てた:
-
•
画像構成:各画像が適切に2つの並列ビューを含んでいることの確認。
-
•
被写体の一貫性:被写体が両方のビューでアイデンティティを維持していることの確認。
-
•
画像品質:高解像度と視覚的忠実性の確認。
厳格な品質基準を維持するために、各画像はChatGPT-4oによって5回の独立した評価を受けた。5回の評価すべてに合格した画像のみが我々のトレーニングデータセットに含まれた。図S1は、我々の品質管理されたデータセットからの代表的な例を示している。
A.2 Dataset Statistics
Split-2において、我々はまず42の異なるオブジェクトカテゴリを生成し、そこから4,696の詳細なオブジェクトインスタンスを作成および精選した。 次に、これらの記述を組み合わせて211,320の主題一貫性のある画像ペアを生成した。 GPT-4oを用いた厳密な品質管理を通じて、我々は最終的なデータセットとして111,767の高品質な画像ペアを選択した。 この広範な選別プロセスにより、画像品質と主題一貫性の最高基準が確保され、223,534の高品質な訓練画像のコレクションが得られた。
Appendix B Additional experimental results
B.1 Evaluation for subject-driven generation
フレームワークと基準。 被写体主導型生成の品質を体系的に評価するために、我々は被写体の特徴の保持と要求された修正の正確さの両方を評価する5つの基準からなるフレームワークを確立した:
-
•
アイデンティティの保持:本質的な識別特徴(例:ロゴ、ブランドマーク、特徴的なパターン)の保持を評価する
-
•
素材の品質:素材の特性と表面の特徴が正確に表現されているかを評価する
-
•
色の忠実性:修正が指定されていない領域で色が一貫しているかを評価する
-
•
自然な外観:生成された画像が現実的で一貫性があるように見えるかを評価する
-
•
修正の正確さ:テキストプロンプトで指定された変更が適切に実行されているかを検証する
Method | Identity | Material | Color | Natural | Modification | Average |
preservation | quality | fidelity | appearance | accuracy | score | |
Average over 5 random seeds | ||||||
IP-Adapter (SD 1.5) | 29.4 | 86.1 | 45.3 | 97.9 | 17.0 | 55.1 |
SSR-Encoder | 46.0 | 92.0 | 54.2 | 96.3 | 28.5 | 63.4 |
IP-Adapter (FLUX) | 11.8 | 65.8 | 30.8 | 98.1 | 57.7 | 52.8 |
Ours | 50.6 | 84.3 | 55.0 | 98.5 | 75.8 | 72.8 |
Best score over 5 random seeds | ||||||
IP-Adapter (SD 1.5) | 56.3 | 98.9 | 70.1 | 99.7 | 37.2 | 72.5 |
SSR-Encoder | 64.3 | 99.2 | 74.4 | 99.1 | 53.6 | 78.1 |
IP-Adapter (FLUX) | 27.5 | 86.1 | 53.6 | 99.9 | 74.9 | 68.4 |
Ours | 82.3 | 98.0 | 88.4 | 100.0 | 90.7 | 91.9 |
ユーザー調査。 我々のアプローチをさらに検証するために、375件の有効な回答を収集するユーザー調査を実施した。 参加者は、アイデンティティの一貫性、テキストと画像の整合性、被写体と背景の視覚的一貫性という3つの主要な側面にわたって生成された画像を評価した。 図S4に示された結果は、我々の定量的な発見を裏付けており、我々の手法がすべての評価基準において優れたパフォーマンスを達成していることを示している。