JaLMS
最新の AI 研究を日本語で解読

OminiControl: Minimal and Universal Control for Diffusion Transformer

Zhenxiong Tan  Songhua Liu  Xingyi Yang  Qiaochu Xue  Xinchao Wang
National University of Singapore
[email protected] [email protected]
Abstract

本稿では、事前学習済みの拡散トランスフォーマー(DiT)モデルに画像条件を統合する、高度に汎用性があり、パラメータ効率の良いフレームワークであるOminiControlを紹介する。 OminiControlの核心は、パラメータ再利用メカニズムにある。これにより、DiTは自身を強力なバックボーンとして使用して画像条件をエンコードし、柔軟なマルチモーダル注意プロセッサでそれらを処理することが可能となる。 複雑なアーキテクチャを持つ追加のエンコーダモジュールに大きく依存する既存の手法とは異なり、OminiControlは (1) わずか0.10.1~{}0.10.1%の追加パラメータで注入された画像条件を効果的かつ効率的に組み込み、(2) 被写体駆動生成やエッジ、深度などの空間的に整列した条件を含む、幅広い画像条件付けタスクを統一的な方法で扱う。 注目すべきことに、これらの能力はDiT自体が生成した画像を用いて訓練することで達成され、これは特に被写体駆動生成に有益である。 広範な評価により、OminiControlが被写体駆動および空間的に整列した条件付き生成の両方において、既存のUNetベースおよびDiT適応モデルを凌駕することが実証された。 さらに、我々は訓練データセットSubjects200Kを公開する。これは20万枚以上の同一性の一貫した画像からなる多様なコレクションであり、被写体一貫性のある生成の研究を進めるための効率的なデータ合成パイプラインも併せて提供する。 111コードとデータセットはhttps://github.com/Yuanshi9815/OminiControlで入手可能である。

1 Introduction

拡散モデル[9, 28, 25]は、視覚生成の分野に革命をもたらし、画像品質と多様性の面で従来のGenerative Adversarial Networks (GANs)[6]のようなアプローチを大きく上回る顕著な能力を示している。 これらのモデルは非常にリアルな画像の生成に優れているが、重要な課題が残されている。それは、多様で複雑なユーザーの要求に対応するために、生成プロセスを正確かつ柔軟に制御することを可能にすることである。

テキストベースの条件付けは、制御可能な生成を進歩させる上で重要な基盤となってきた[28, 25, 13, 2, 23, 35]。これは、ユーザーが望む出力を指定するための直感的なインターフェースを提供している。 しかし、テキストプロンプトのみでは、ユーザーが制御したい正確な空間的詳細や構造的属性を伝えることがしばしば困難である。 そのため、最近の研究では、拡散モデルを誘導するための補完的な条件付けモダリティが探求されており、画像ベースの制御が特に効果的なアプローチとして浮上している[41, 39, 22, 43, 15]。 このマルチモーダルな条件付け戦略により、生成プロセスをより詳細かつ正確に制御することが可能となり、純粋にテキストベースのインターフェースに内在する限界に対処している。

現在の画像条件付け手法は、大きく空間的に整列したアプローチと空間的に整列していないアプローチに分類できる。 スケッチから画像への変換やインペインティングなどの空間的に整列したタスクでは、条件付け画像と出力画像の間に直接的な対応関係が必要であり、通常はControlNet[41]のような空間を保持する方法で条件付け特徴を注入することで達成される。 一方、IP-Adapter[39]で実証されているような被写体駆動生成やスタイル転送を含む空間的に整列していないアプリケーションでは、しばしばCLIP[27]のような事前学習済みエンコーダーを使用して、クロスアテンションメカニズムを通じて統合するためのグローバル特徴を抽出する。

既存の画像条件付きアプローチの有効性にもかかわらず、それらには効率性と柔軟性を妨げるいくつかの制限がある[41, 39, 22]。 第一に、既存の手法の大部分はUNetベースのアーキテクチャ向けに特別に設計されている[29, 41, 22, 39, 31, 42, 43, 40, 24, 16]。これはStable Diffusionモデル[28, 25]に見られるとおりである。これらのアプローチはUNetのエンコーダ-デコーダ構造とうまく機能するが、より高度な画像生成品質を示したDiffusion Transformer (DiT)モデル[23]には効果的に適用できない可能性がある[13, 2]。 さらに、現在のアプローチは通常、空間的に整列したタスク[22, 43, 41]または空間的に整列していないタスク[39, 42, 17, 15, 12]のいずれかに特化しており、両方の制御タイプを効果的に扱う統一されたアーキテクチャが欠如している。この特化により、実践者は異なる制御シナリオに対して異なる手法を採用する必要があり、システムの複雑性と実装のオーバーヘッドが増加する。 さらに、これらの手法は追加のネットワーク構造に大きく依存しており[39, 42, 22, 43, 41, 17]、これにより相当なパラメータオーバーヘッドが導入される。

これらの制限に対処するため、我々はDiTアーキテクチャに画像ベースの制御を組み込むためのパラメータ効率的なアプローチを提案する[23]。 本手法は、条件付け画像を処理するためにモデルの既存のVAEエンコーダ[28]を再利用する。 ノイズのある画像トークンと同じトークン処理パイプラインに従い、エンコードされた特徴量に学習可能な位置埋め込み[34]を追加し、潜在ノイズと共にデノイジングネットワークにシームレスに統合する。 この設計により、DiTのトランスフォーマーブロック全体を通じて、条件と生成トークン間の直接的なマルチモーダル注意相互作用[23, 30]が可能となり、効率的な情報交換と制御信号の伝播を促進する。

Refer to caption
図2: 拡散トランスフォーマー(DiT)アーキテクチャと画像条件付けの統合手法の概要。

我々は、高性能なDiT構造の拡散モデルであるFLUX.1-dev[13]に本手法を実装した。これは120億のパラメータを含む大規模モデルである。 エッジガイド生成、深度認識合成、領域特定編集、アイデンティティ保持生成に関する広範な実験により、我々のDiTベースのアプローチが、UNetベースの実装[41, 39, 7]およびFLUX.1モデルに対するコミュニティの適応[14, 37]と比較して、より良い結果をもたらすことが示された。

アイデンティティ保持生成のために、我々は高品質でアイデンティティ一貫性のある画像ペアを生成する新規データ合成パイプラインを開発した。 このパイプラインを使用して、20万枚以上の多様な画像からなる包括的なデータセットを作成した。 この方向での将来の研究を促進するため、我々はデータセットと完全なパイプライン実装の両方をオープンソースリソースとして公開する予定である22詳細は補足資料に記載されている。

要約すると、我々の貢献は以下の通りである:

  1. 1.

    我々は、Diffusion Transformer (DiT)モデルにおいて画像条件付き制御を可能にするパラメータ効率の良い手法を提案する。この手法は、空間的に整列した制御と空間的に整列していない制御の両方を統一的なフレームワーク内で実現する。

  2. 2.

    我々は、エッジガイド生成、深度認識合成、領域特定編集、アイデンティティ保持生成など、多様な制御タスクにわたる広範な実験を通じて、我々のアプローチの有効性を実証する。UNet実装とそのDiT適応の両方において、既存の手法を一貫して上回る性能を示す。

  3. 3.

    我々は、20万枚以上の被写体一貫性のある高品質画像データセットSubjects200Kを開発し公開する。また、効率的なデータ合成パイプラインも提供する。これにより、被写体一貫性のある生成タスクのさらなる探求のための貴重なリソースを研究コミュニティに提供する。

2 Related works

2.1 Diffusion-based models

拡散ベースの手法は、画像生成のための強力なフレームワークとして台頭してきた[9, 28]。これらの手法は、テキストから画像への合成[28, 2, 33]、画像から画像への変換[32]、画像編集[20, 1]など、多様なタスクにおいて成功を収めている。 最近の進歩により、品質と効率の両面で大幅な改善が見られ、特に潜在拡散モデル[28]の導入が注目される。 生成能力をさらに向上させるため、大規模なトランスフォーマーアーキテクチャがこれらのフレームワークに統合され、DiT[23, 2, 13, 3]のような先進的なモデルが生まれている。 これらのアーキテクチャの革新を基に、FLUX[13]はトランスフォーマーベースの設計とフローマッチング目的関数[18]を組み合わせ、最先端の生成性能を達成している。

2.2 Controllable generation with diffusion models

制御可能な生成は、拡散モデルの文脈で広く研究されてきた。 テキストから画像への変換モデル[28, 25]は条件付き生成の基礎を確立し、一方で画像などの追加の制御信号を組み込むための様々なアプローチが開発されてきた。 注目すべき手法には、拡散モデルにおいて空間的に整列された制御を可能にするControlNet [41]や、軽量なアダプターで効率を改善するT2I-Adapter [22]がある。UniControl [26]は、Mixture-of-Experts (MoE)を使用して異なる空間的条件を統合し、モデルサイズをさらに削減している。しかしながら、これらの手法は、ノイズ除去ネットワークの隠れ状態に空間的に条件情報を追加することに依存しており、本質的に被写体駆動型生成のような非空間的タスクに対する有効性が制限されている。IP-Adapter [39]は、追加のエンコーダーを通じてクロスアテンションを導入することでこの問題に対処し、SSR-Encoder [42]は画像条件付きタスクにおけるアイデンティティ保持をさらに強化している。 これらの進展[15, 19, 5]にもかかわらず、空間的に整列されたタスクと非整列タスクの両方に対する統一的な解決策は依然として見出されていない。

3 Methods

3.1 Preliminary

FLUX.1 [13]、Stable Diffusion 3 [28]、PixArt [2]などのアーキテクチャで採用されているDiffusion Transformer (DiT)モデル [23]は、ノイズの多い画像トークンを反復的に精製するためにトランスフォーマーブロックのデノイジングネットワークを使用している。

各トランスフォーマーブロックは、2種類のトークンを処理する:ノイズの多い画像トークン𝐗N×d𝐗superscript𝑁𝑑\mathbf{X}\in\mathbb{R}^{N\times d}bold_X ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_d end_POSTSUPERSCRIPTとテキスト条件トークン𝐂TM×dsubscript𝐂Tsuperscript𝑀𝑑\mathbf{C}_{\text{T}}\in\mathbb{R}^{M\times d}bold_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_M × italic_d end_POSTSUPERSCRIPTである。ここで、d𝑑ditalic_dは埋め込み次元、N𝑁Nitalic_NM𝑀Mitalic_Mはそれぞれ画像トークンとテキストトークンの数である(図2)。これらのトークンは隠れ状態X𝑋Xitalic_XCTsubscript𝐶TC_{\text{T}}italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPTに埋め込まれ、トランスフォーマーブロック全体を通じて一貫した形状を維持する。

各DiTブロックでは、X𝑋Xitalic_XCTsubscript𝐶TC_{\text{T}}italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPTを正規化した後、コアのMM-Attentionモジュール [30]によって処理される。このモジュールは、Rotary Position Embedding (RoPE) [34]を使用してトークン間の位置依存性を組み込む。2次元グリッドの位置(i,j)𝑖𝑗(i,j)( italic_i , italic_j )にあるトークンに対して、RoPEはクエリとキーの射影に回転行列を適用する:

QX(i,j)subscript𝑄𝑋𝑖𝑗\displaystyle Q_{X}(i,j)italic_Q start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT ( italic_i , italic_j ) =WQ(Xi,jR(i,j)),absentsubscript𝑊𝑄subscript𝑋𝑖𝑗𝑅𝑖𝑗\displaystyle=W_{Q}\left(X_{i,j}\cdot R(i,j)\right),= italic_W start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT ( italic_X start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT ⋅ italic_R ( italic_i , italic_j ) ) , (1)
KX(i,j)subscript𝐾𝑋𝑖𝑗\displaystyle K_{X}(i,j)italic_K start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT ( italic_i , italic_j ) =WK(Xi,jR(i,j)),absentsubscript𝑊𝐾subscript𝑋𝑖𝑗𝑅𝑖𝑗\displaystyle=W_{K}\left(X_{i,j}\cdot R(i,j)\right),= italic_W start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT ( italic_X start_POSTSUBSCRIPT italic_i , italic_j end_POSTSUBSCRIPT ⋅ italic_R ( italic_i , italic_j ) ) , (2)

ここで、R(i,j)𝑅𝑖𝑗R(i,j)italic_R ( italic_i , italic_j )は位置(i,j)𝑖𝑗(i,j)( italic_i , italic_j )における回転行列である。同様に、テキスト条件トークンCTsubscript𝐶TC_{\text{T}}italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPTのクエリとキーの射影も同じ方法で定義され、FLUX.1ではすべてのテキストトークンの位置が(0,0)00(0,0)( 0 , 0 )に設定される。

RoPEを適用した後、両方のトークンタイプからのクエリ、キー、バリューが連結され、統合された行列QZsubscript𝑄𝑍Q_{Z}italic_Q start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPTKZsubscript𝐾𝑍K_{Z}italic_K start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPTVZsubscript𝑉𝑍V_{Z}italic_V start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPTを形成し、結合されたトークンセットZ=[X;CT]𝑍𝑋subscript𝐶TZ=[X;C_{\text{T}}]italic_Z = [ italic_X ; italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPT ]を表現する。その後、MM-Attention操作は以下のように計算される:

MMAttention(Z)=softmax(QZKZd)VZ,MMAttention𝑍softmaxsubscript𝑄𝑍superscriptsubscript𝐾𝑍top𝑑subscript𝑉𝑍\text{MMAttention}(Z)=\text{softmax}\left(\frac{Q_{Z}K_{Z}^{\top}}{\sqrt{d}}% \right)V_{Z},MMAttention ( italic_Z ) = softmax ( divide start_ARG italic_Q start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT italic_K start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT end_ARG start_ARG square-root start_ARG italic_d end_ARG end_ARG ) italic_V start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT , (3)

これにより、注意機構を通じて画像とテキスト条件トークン間の相互作用が可能になる。

Refer to caption
図3: 画像条件を統合するための2つの方法を使用した結果の比較。マルチモーダルアプローチは、直接加算と比較して、条件に対するより良い追従を示している。

3.2 Image condition integration

我々のアプローチでは、まず条件画像をモデルのVAEを通してエンコードし、ノイズ画像トークンと同じ潜在空間に投影して𝐂IN×dsubscript𝐂Isuperscript𝑁𝑑\mathbf{C}_{\text{I}}\in\mathbb{R}^{N\times d}bold_C start_POSTSUBSCRIPT I end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_N × italic_d end_POSTSUPERSCRIPTを形成する。

ControlNet [41]やT2I-Adapter [22]のような従来の手法では、条件画像を空間的に整列させ、その隠れ状態をノイズ画像トークンの隠れ状態に直接加算することで組み込んでいる:

HX=HX+HCI,subscript𝐻𝑋subscript𝐻𝑋subscript𝐻subscript𝐶IH_{X}=H_{X}+H_{C_{\text{I}}},italic_H start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT = italic_H start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPT + italic_H start_POSTSUBSCRIPT italic_C start_POSTSUBSCRIPT I end_POSTSUBSCRIPT end_POSTSUBSCRIPT , (4)

ここで、HXsubscript𝐻𝑋H_{X}italic_H start_POSTSUBSCRIPT italic_X end_POSTSUBSCRIPTは更なる処理のための結合された隠れ状態を表し、HCIsubscript𝐻subscript𝐶IH_{C_{\text{I}}}italic_H start_POSTSUBSCRIPT italic_C start_POSTSUBSCRIPT I end_POSTSUBSCRIPT end_POSTSUBSCRIPTは条件画像からの隠れ状態である。 この手法は空間的に整列したタスクに対しては効果的であるが、2つの主要な制限がある:(1)空間的に整列していないシナリオを扱う際の柔軟性に欠け、(2)空間的に整列している場合でも、隠れ状態の直接的な加算はトークン間の相互作用を制限し、モデルの性能を潜在的に制限する可能性がある。

Refer to caption
(a) 異なる画像条件統合手法の訓練損失。
Refer to caption
(b) 共有位置対シフト位置の訓練損失。
図4: 訓練損失の比較。

対照的に、我々の手法では、空間的に整列していない制御タスクを可能にし、より大きな条件付け柔軟性を提供するために、条件画像トークンをテキストとノイズ画像トークンと同様に処理し、統一されたシーケンスに統合する:

Z=[X;CT;CI],𝑍𝑋subscript𝐶Tsubscript𝐶IZ=[X;C_{\text{T}};C_{\text{I}}],italic_Z = [ italic_X ; italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPT ; italic_C start_POSTSUBSCRIPT I end_POSTSUBSCRIPT ] , (5)

ここで、Z𝑍Zitalic_Zはノイズ画像トークンX𝑋Xitalic_X、テキストトークンCTsubscript𝐶TC_{\text{T}}italic_C start_POSTSUBSCRIPT T end_POSTSUBSCRIPT、および条件画像トークンCIsubscript𝐶IC_{\text{I}}italic_C start_POSTSUBSCRIPT I end_POSTSUBSCRIPTの連結されたシーケンスを表す。この統一されたアプローチにより、特殊な処理経路なしにマルチモーダル注意機構[30]に直接参加することが可能になる(図2に示す)。 直接加算アプローチよりも優れた結果を達成する。

Refer to caption
図5: (a) Canny-to-imageタスクの注意マップ。ノイズ画像トークンX𝑋Xitalic_Xと画像条件トークンCIsubscript𝐶𝐼C_{I}italic_C start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT間の相互作用を示す。強い対角パターンは効果的な空間的整列を示している。(b) 被写体駆動生成タスク。入力条件と出力画像。XCi𝑋subscript𝐶𝑖X\to C_{i}italic_X → italic_C start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTCiXsubscript𝐶𝑖𝑋C_{i}\to Xitalic_C start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT → italic_Xの注意マップは、正確な被写体中心の注意を示している。

比較分析により、我々のアプローチが直接加算法よりも優れた結果を達成することが示されている。これは図3の注意の可視化によって実証されている。 さらに、図4(a)の訓練曲線は、マルチモーダル注意手法が一貫して直接加算アプローチよりも低い損失値を達成していることを示している。 この統一されたシーケンスアプローチの有効性は、空間的に整列したタスクと空間的に整列していないタスクの両方で実証されており(図5)、多様な条件付き生成シナリオを扱う上での汎用性を強調している。

3.3 Adaptive position embedding

条件画像の統合には、条件画像とターゲット画像の間の効果的な相互作用を確保するために、位置情報の慎重な考慮が必要である。 従来の手法では、条件画像と出力画像の間の厳密な空間的整列を仮定することが多く、非整列タスクへの適用が制限されていた。 さらに、条件トークンとターゲットトークンの相対的な位置関係は、モデルの学習効率と汎化能力に大きな影響を与える可能性がある。 我々の統一されたシーケンス設計では、条件トークンが他のトークンと連結されているため、異なる位置エンコーディング戦略を探索する柔軟性がある。

FLUX.1のTransformerでは、各トークンに空間情報をエンコードするための対応する位置インデックスが割り当てられる。 512×\times×512の入力画像に対して、VAE [11] エンコーダーはまずそれを潜在空間に投影し、その後、潜在表現を32×\times×32のトークングリッドに分割する。各トークンには、(i,j)𝑖𝑗(i,j)( italic_i , italic_j )(ここでi,j[0,31]𝑖𝑗031i,j\in[0,31]italic_i , italic_j ∈ [ 0 , 31 ])という一意の二次元位置インデックスが与えられる。 このインデックス付けスキームは、潜在空間において元の画像の空間構造を保持し、一方でテキストトークンは(0,0)00(0,0)( 0 , 0 )という固定の位置インデックスを維持する。

空間的に整列したタスクに対して、我々の初期アプローチは、条件トークンに元の画像の対応するトークンと同じ位置埋め込みを割り当てることであった。 しかし、被写体駆動生成のような空間的に非整列のタスクに対しては、我々の実験により、条件トークンの位置インデックスをシフトすることで収束が速くなることが明らかになった(図4(b))。 具体的には、条件画像トークンのインデックスを(i,j)𝑖𝑗(i,j)( italic_i , italic_j )(ここでi[0,31]𝑖031i\in[0,31]italic_i ∈ [ 0 , 31 ]かつj[32,64]𝑗3264j\in[32,64]italic_j ∈ [ 32 , 64 ])にシフトし、元の画像トークンX𝑋Xitalic_Xとの空間的な重複がないようにしている。

3.4 Condition strength factor

我々が採用した統一的注意機構は、柔軟なトークン間相互作用を可能にするだけでなく、条件画像の影響を正確に制御することも可能にする。 具体的には、推論時に条件画像の効果を手動で調整できる方法を設計した。 与えられた強度因子γ𝛾\gammaitalic_γに対して、γ=0𝛾0\gamma=0italic_γ = 0を設定すると条件画像の影響が除去され、元の入力のみに基づく出力が得られる。 γ=1𝛾1\gamma=1italic_γ = 1では、出力は条件画像を完全に反映し、γ𝛾\gammaitalic_γが1を超えて増加すると、条件の効果がさらに顕著になる。

この制御可能性を実現するために、我々は元のMM-Attention操作にバイアス項を導入する。具体的には、式3を以下のように修正する:

BiasedAttention(Z)=softmax(QZKZd+bias(γ))VZ,BiasedAttention𝑍softmaxsubscript𝑄𝑍superscriptsubscript𝐾𝑍top𝑑bias𝛾subscript𝑉𝑍\text{BiasedAttention}(Z)=\text{softmax}\left(\frac{Q_{Z}K_{Z}^{\top}}{\sqrt{d% }}+\text{bias}(\gamma)\right)V_{Z},BiasedAttention ( italic_Z ) = softmax ( divide start_ARG italic_Q start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT italic_K start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT end_ARG start_ARG square-root start_ARG italic_d end_ARG end_ARG + bias ( italic_γ ) ) italic_V start_POSTSUBSCRIPT italic_Z end_POSTSUBSCRIPT , (6)

ここで、biasγ𝛾\gammaitalic_γは強度因子γ𝛾\gammaitalic_γに基づいて条件トークンと他のトークン間の注意の重みを調整するように設計されている。 バイアス項は(M+2N)×(M+2N)𝑀2𝑁𝑀2𝑁(M+2N)\times(M+2N)( italic_M + 2 italic_N ) × ( italic_M + 2 italic_N )行列として構築され、M𝑀Mitalic_Mはテキストトークンの数、N𝑁Nitalic_Nはノイズ画像トークンと条件画像トークンの数をそれぞれ表す。行列は以下の構造を持つ:

bias(γ)=[𝟎M×M𝟎M×N𝟎M×N𝟎N×M𝟎N×Nlog(γ)𝟏N×N𝟎N×Mlog(γ)𝟏N×N𝟎N×N].bias𝛾matrixsubscript0𝑀𝑀subscript0𝑀𝑁subscript0𝑀𝑁subscript0𝑁𝑀subscript0𝑁𝑁𝛾subscript1𝑁𝑁subscript0𝑁𝑀𝛾subscript1𝑁𝑁subscript0𝑁𝑁\text{bias}(\gamma)=\begin{bmatrix}\mathbf{0}_{M\times M}&\mathbf{0}_{M\times N% }&\mathbf{0}_{M\times N}\\ \mathbf{0}_{N\times M}&\mathbf{0}_{N\times N}&\log(\gamma)\mathbf{1}_{N\times N% }\\ \mathbf{0}_{N\times M}&\log(\gamma)\mathbf{1}_{N\times N}&\mathbf{0}_{N\times N% }\end{bmatrix}.bias ( italic_γ ) = [ start_ARG start_ROW start_CELL bold_0 start_POSTSUBSCRIPT italic_M × italic_M end_POSTSUBSCRIPT end_CELL start_CELL bold_0 start_POSTSUBSCRIPT italic_M × italic_N end_POSTSUBSCRIPT end_CELL start_CELL bold_0 start_POSTSUBSCRIPT italic_M × italic_N end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL bold_0 start_POSTSUBSCRIPT italic_N × italic_M end_POSTSUBSCRIPT end_CELL start_CELL bold_0 start_POSTSUBSCRIPT italic_N × italic_N end_POSTSUBSCRIPT end_CELL start_CELL roman_log ( italic_γ ) bold_1 start_POSTSUBSCRIPT italic_N × italic_N end_POSTSUBSCRIPT end_CELL end_ROW start_ROW start_CELL bold_0 start_POSTSUBSCRIPT italic_N × italic_M end_POSTSUBSCRIPT end_CELL start_CELL roman_log ( italic_γ ) bold_1 start_POSTSUBSCRIPT italic_N × italic_N end_POSTSUBSCRIPT end_CELL start_CELL bold_0 start_POSTSUBSCRIPT italic_N × italic_N end_POSTSUBSCRIPT end_CELL end_ROW end_ARG ] . (7)

この設計により、強度因子γ𝛾\gammaitalic_γはノイズ画像トークンと条件画像トークン間の注意の重みにのみ影響を与え、テキストトークンおよびモダリティ内の相互作用に対する元の注意パターンを維持する。

3.5 Subjects200K datasets

Refer to caption
図6: 我々のSubjects200Kデータセットからの例。各画像ペアは、同じ物体を様々な位置、角度、照明条件で示している。 このデータセットには、衣類、家具、車両、動物など多様な物体が含まれ、合計で20万枚以上の画像がある。 このデータセットは、生成パイプラインとともに公開される予定である。

被写体一貫性のある生成のためのモデルの訓練には、通常、ポーズ、照明、その他の属性に変化がある一方で、アイデンティティの一貫性を維持するペアの画像が必要である。 IP-Adapterのような以前の手法[39]では、条件付けとターゲットのペアに同一の画像を使用しており、これらのアプローチには効果的である。 しかし、我々のフレームワークでは、このセットアップは過学習を引き起こし、モデルが入力とほぼ同一の出力を生成する原因となる。

これらの制限を克服するため、我々は被写体のアイデンティティを保持しつつ自然な変化を取り入れた画像を特徴とするデータセットを開発した。 既存のデータセット[31, 12, 15, 17]は同様のニーズに対応しているが、品質または規模のいずれかに制約がある場合が多い。 そのため、我々は慎重に作成されたプロンプトから視覚的に関連する画像のペアを生成するFLUXの固有の能力を活用した新しい合成パイプラインを提案する。

我々のパイプラインはChatGPT-4oを利用して2万以上の多様な画像説明を生成し、これらがFLUXを導いて20万枚以上の画像を生成する(図6)。 生成された画像はChatGPT-4oのビジョン機能を使用して品質評価を受け、最終的なデータセットの一貫性と多様性の両方を確保している。 キュレーションされたデータセットと完全な生成パイプラインは公開される333詳細は補足資料に記載されている。データセットとコードはhttps://github.com/Yuanshi9815/Subjects200Kで入手可能である。

4 Experiment

4.1 Setup

タスクと基本モデル。 我々は、条件付き生成タスクの2つのカテゴリーで我々の手法を評価する:空間的に整列したタスク(Cannyから画像への変換、深度から画像への変換、マスクベースのインペインティング、および色付けを含む)と被写体駆動型生成である。 我々の手法は、画像生成のための潜在整流フロートランスフォーマーモデルであるFLUX.1[13]を基盤として構築している。 デフォルトでは、空間的に整列したタスクの画像生成にFLUX.1-devを使用する。被写体駆動型生成タスクでは、より良好な視覚品質を生成する傾向が観察されたため、FLUX.1-schnellに切り替える。

Condition Model Method Controllability General Quality Text Consistency
F1/MSE\text{F1}\uparrow/\text{MSE}\downarrowF1 ↑ / MSE ↓ FIDFIDabsent\text{FID}\downarrowFID ↓ SSIMSSIMabsent\text{SSIM}\uparrowSSIM ↑ MAN-IQAMAN-IQAabsent\text{MAN-IQA}\uparrowMAN-IQA ↑ MUSIQMUSIQabsent\text{MUSIQ}\uparrowMUSIQ ↑ CLIP-ScoreCLIP-Scoreabsent\text{CLIP-Score}\uparrowCLIP-Score ↑
Canny SD1.5 ControlNet 0.34 18.74 0.35 0.45 67.81 0.75
T2I-Adapter 0.22 20.06 0.35 0.39 67.88 0.74
FLUX.1 ControlNet 0.21 98.68 0.25 0.37 56.90 0.53
Ours 0.38 20.63 0.40 0.61 75.91 0.76
Depth SD1.5 ControlNet 923 23.02 0.34 0.47 70.73 0.726
T2I-Adapter 1560 24.72 0.27 0.39 69.99 0.72
FLUX.1 ControlNet 2958 62.20 0.26 0.38 66.84 0.54
Ours 903 27.26 0.39 0.55 75.06 0.728
Deblur FLUX.1 ControlNet 572 30.38 0.74 0.31 54.37 0.78
Ours 132 11.49 0.87 0.39 67.63 0.87
Colorization FLUX.1 ControlNet 351 16.27 0.64 0.43 70.95 0.85
Ours 24 10.23 0.73 0.43 70.74 0.90
Mask SD1.5 ControlNet 7588 13.14 0.40 0.41 67.22 0.84
FLUX.1 Ours 6248 15.66 0.48 0.45 72.61 0.80
表1: 5つの空間的に整列したタスクにおけるベースライン手法との定量的比較。制御可能性(CannyではF1スコア、他ではMSE)、全体的品質(FID、SSIM、MAN-IQA、MUSIQ)、およびテキスト一貫性(CLIPスコア)に基づいて手法を評価する。F1スコアは高いほど良く、MSEは低いほど良い。最良の結果は太字で示されている。

実装の詳細。 我々の手法は、デフォルトのランクが4のLoRA[4]を使用して基本モデルを微調整する。モデルの元の能力を保持し、柔軟性を達成するために、非条件トークンを処理する際のLoRAスケールはデフォルトで0に設定される。

訓練。 我々のモデルは、バッチサイズ1で訓練され、8ステップにわたる勾配累積(実効バッチサイズ8)を行う。 我々は、セーフガードウォームアップとバイアス補正を有効にしたProdigy最適化器[21]を使用し、重み減衰を0.01に設定する。 実験は2台のNVIDIA H100 GPU(各80GB)で実施される。空間的に整列したタスクでは、モデルは50,000イテレーションで訓練され、被写体駆動型生成モデルは15,000イテレーションで訓練される。

ベースライン。 空間的に整列したタスクについては、我々の手法を元のControlNet[41]およびStable Diffusion 1.5上のT2I-Adapter[22]、さらにControlNetのFLUX.1実装であるControlNetPro[14]と比較する。 被写体駆動型生成については、IP-Adapter[39]と比較し、そのFLUX.1実装[37]を評価する。

評価指標。 我々は、空間的に整列したタスクと被写体駆動型生成の両方でモデルを評価する。 空間的に整列したタスクについては、生成品質と制御可能性の2つの側面を評価する。 生成品質は、視覚的忠実性についてFID[8]、SSIM、MAN-IQA[38]、およびMUSIQ[10]を用いて測定し、意味的一貫性についてはCLIPスコア[27]を用いる。 制御可能性については、エッジ条件付き生成では抽出されたエッジマップと入力エッジマップ間のF1スコアを計算し、他のタスクでは抽出された条件マップと元の条件マップ間のMSEを計算する(深度にはDepth Anythingを使用し、色付けには色チャンネル分離を使用するなど)。 被写体駆動型生成については、被写体特性の保持(アイデンティティ保持、素材品質、色忠実度、自然な外観)と要求された修正の正確性の両方を評価する5基準のフレームワークを提案し、すべての評価はGPT-4oのビジョン機能を通じて実施され、体系的な評価を確保する。 詳細な評価方法は付録B.1に記載されている。

評価プロトコル。 我々は2つのデータセットで評価を実施した。 空間的に整列したタスクについては、COCO 2017検証セット(5,000画像)を512×\times×512にリサイズし、タスク固有の条件と関連するキャプションをプロンプトとして使用し、固定シード42で評価する。 被写体駆動型生成については、DreamBooth[31]データセットから750のテキスト-条件ペア(30被写体 × 25プロンプト)を5つの異なるシードでテストし、被写体ごとに1つの選択された画像を条件として使用する。

4.2 Main result

Refer to caption
図7: 異なる手法の比較による定性的結果。 左: Canny、深度、アウトペインティング、デブラー、色付けにおける空間的に整列されたタスク。 右: 飲料缶、靴、ロボットのおもちゃを用いた被写体駆動型生成。 我々の手法は、すべてのタスクにおいて優れた制御性と視覚的品質を示している。

空間的に整列されたタスク1に示すように、我々は5つの空間的に整列されたタスクにおいて、既存のアプローチと比較して我々の手法を包括的に評価した。 我々の手法は、Canny-to-image生成において0.38という最高のF1スコアを達成し、SD1.5ベースの手法であるControlNet [41]とT2I-Adapter [22]、さらにFLUX.1ベースのControlNetPro [14]を大きく上回っている。 一般的な品質指標に関しては、我々のアプローチはほとんどのタスクで一貫して優れており、特にSSIM [36]、MAN-IQA [38]、MUSIQ [10]スコアにおいて顕著に優れたパフォーマンスを示している。 デブラーや色付けなどの困難なタスクでは、我々の手法は大幅な改善を達成している:MSEはControlNetProと比較してそれぞれ77%と93%減少し、FIDスコア [8]はデブラーにおいて30.38から11.49に改善している。 CLIPスコア指標 [27]は、我々の手法がすべてのタスクにおいて高いテキストと画像の一貫性を維持していることを示しており、より良い制御と視覚的品質を達成しながら、意味的整合性を効果的に保持していることを示唆している。 図7に示すように、我々の手法は色付けタスクにおいてより鮮明な詳細とより忠実な色再現を生成し、エッジガイド生成とデブラーのシナリオにおいてより良い構造的忠実性を維持している。

Refer to caption
図8: 5つの評価指標にわたる我々の手法(青)とベースラインの比較をレーダーチャートで可視化したもの。

被写体駆動型生成8は、既存のベースラインとの包括的な比較を示している。 我々の手法は、特にアイデンティティ保持と修正精度において優れたパフォーマンスを示している。 ランダムシードの平均では、我々の手法はIP-Adapter (FLUX)の57.7%に対して75.8%の修正精度を達成し、同時にIP-Adapter (SD 1.5)の29.4%に対して50.6%のアイデンティティ保持を維持している。 この優位性は最良のシードのシナリオでさらに増幅され、90.7%の修正精度と82.3%のアイデンティティ保持を達成し、最強のベースラインをそれぞれ15.8ポイントと18.0ポイント上回り、効果的な被写体忠実性編集を実証している。 これらの定量的結果は、付録B.1に示されるユーザー調査によってさらに裏付けられている。

パラメータ効率の比較2に示すように、我々のアプローチは既存の手法と比較して顕著なパラメータ効率を達成している。 12Bパラメータを持つFLUX.1モデルに対して、我々の手法は学習可能なパラメータをわずか14.5M(約0.1%)必要とするだけであり、これはControlNet(27.5%)やIP-Adapter(7.6%)と比較して大幅に少ない。 FLUX.1のオリジナルのVAEエンコーダーを使用する場合でも、我々の手法はわずか0.4%の追加パラメータで高い効率を維持しており、我々のパラメータ効率の高い設計の有効性を示している。

Methods Base model Parameters Ratio
ControlNet SD1.5 / 860M 361M similar-to\sim42%
T2I-Adapter 77M similar-to\sim9.0%
IP-Adapter 449M similar-to\sim52.2%
ControlNet FLUX.1 / 12B 3.3B similar-to\sim27.5%
IP-Adapter 918M similar-to\sim7.6%
Ours FLUX.1 / 12B 14.5M / 48.7M w/ Encoder similar-to\sim0.1% / similar-to\sim0.4% w/ Encoder
表2: 異なる画像条件付け手法によって導入される追加パラメータ。IP-Adapterの場合、パラメータ数にはCLIP画像エンコーダーが含まれる。我々の手法については、FLUX.1のオリジナルのVAEエンコーダーを使用した場合の結果も報告している。

4.3 Empirical studies

訓練データの影響。

Refer to caption
図9: 異なるデータで訓練されたモデルの比較。 データ拡張で訓練されたモデルは入力を直接コピーする傾向がある一方、我々のSubjects200Kで訓練されたモデルは同一性を保ちつつ新しい視点を生成する。

被写体駆動型生成において、我々のモデルは被写体(例えばぬいぐるみや物体)の参照画像とテキスト記述を入力として受け取り、テキストガイダンスに従いつつ主要な特徴を保持しながら、同じ被写体の新しい画像を生成することを目指している。

セクション3.5で説明した我々のSubjects200Kデータセットの有効性を検証するため、我々はこのタスクに対する2つの訓練戦略を比較した。 第一のアプローチは従来のデータ拡張に依存し、元の画像にランダムなクロッピング、回転、スケーリング、およびコントラスト、彩度、色の調整を適用する。 第二のアプローチは我々のSubjects200Kデータセットを利用する。 図9に示すように、データ拡張で訓練されたモデルは、最小限の変更で入力条件を複製することしか学習していない。 1行目では、タコのぬいぐるみを明るい部屋の設定に単に配置し、その外観と姿勢を正確に維持している。 同様に、2行目では、窓際に配置するという指示にもかかわらず、黄色の目覚まし時計がほぼ同一の詳細で再現されている。 対照的に、我々のSubjects200Kで訓練されたモデルは、テキストプロンプトに忠実に従いながら、被写体の多様かつ一貫した視点を生成する能力を示している。

条件強度分析。 我々は定性的実験を通じて条件強度制御を評価した。図10は、強度因子γ0.25,0.5,0.75,1.0𝛾0.250.50.751.0\gamma\in{0.25,0.5,0.75,1.0}italic_γ ∈ 0.25 , 0.5 , 0.75 , 1.0を変化させて生成した結果を示している。 結果は、γ𝛾\gammaitalic_γがCanny-to-image生成のような空間的に整列したタスクと、被写体駆動型生成のような空間的に整列していないタスクの両方で生成プロセスを効果的に制御し、条件の影響に対する柔軟な制御を可能にすることを示している。

Refer to caption
図10: 異なるデータで訓練されたモデルの比較。 データ拡張で訓練されたモデルは入力を直接コピーする傾向がある一方、我々のSubjects200Kで訓練されたモデルは同一性を保ちつつ新しい視点を生成する。

LoRAランクの影響。 我々はCanny-to-imageタスクに対して、異なるLoRAランク(1、2、4、8、16)で広範な実験を行った。 表3に示すように、我々の実験はLoRAランクを増やすことで一般的にモデルのパフォーマンスが向上し、ランク16が画像品質(FIDとSSIMで測定)、条件制御能力(F1スコアで測定)など複数の側面で最良の結果を達成し、同時にテキスト-画像の一貫性(CLIPスコアで測定)においても競争力のある性能を維持することを示している。 特筆すべきは、より小さなランク(例えばランク1)でも、モデルは競争力のある性能を示し、特にテキスト-画像の整合性では0.765という最高のCLIPスコアを達成しており、限られたパラメータでも我々のアプローチの効率性を示している。

Study Setting FID \downarrow SSIM \uparrow F1 Score \uparrow CLIP Score \uparrow
LoRA Rank 1 21.09 0.412 0.385 0.765
2 21.28 0.411 0.377 0.751
4 20.63 0.407 0.380 0.761
8 21.40 0.404 0.3881 0.761
16 19.71 0.425 0.407 0.764
Condition Blocks Early 25.66 0.369 0.23 0.72
Full 20.63 0.407 0.38 0.76
表3: (1) Canny-to-imageタスクのLoRAランクと(2)条件信号統合アプローチに関するアブレーション研究。結果はLoRAランク16と全深度統合が最高のパフォーマンスを達成することを示している。青背景の行は我々のデフォルト設定(LoRAランク=4、全条件統合)を示す。最良の結果は太字で表示。

条件付け深度。 FLUX.1のトランスフォーマーアーキテクチャは、異なるモダリティトークン(テキストと画像)に対して別々の正規化モジュールを使用する初期ブロックと、すべてのトークンに対して統一された正規化を共有する後期ブロックという2つの異なるタイプのブロックを特徴としている。 表3に示すように、実験では条件信号の統合をこれらの初期ブロックのみに制限すると、生成プロセスに対する制御可能性が不十分であることが明らかになった。 これは、条件信号がトランスフォーマースタック全体に影響を与えることを許可することが、出力に対する望ましい制御レベルを達成するために重要であることを示唆している。 特に、この発見は、UNetベースのアーキテクチャで効果的であった、主に初期ブロックに条件信号を挿入するという以前のアプローチ[14, 37, 39, 41, 22]が、FLUX.1のようなDiTベースのモデルには完全には適用できない可能性があることを示している。

5 Conclusion

OmniControlは、統一されたトークンアプローチを用いて、追加のモジュールなしで多様なタスクにわたる拡散トランスフォーマーの画像条件付き制御を、パラメータ効率的に提供する。 我々の手法は従来のアプローチを凌駕し、新たなSubjects200Kデータセット(20万枚の高品質で被写体一貫性のある画像を特徴とする)は、被写体一貫性のある生成における進歩を支援する。 結果は、拡散モデルにおけるOmniControlのスケーラビリティと有効性を確認している。

References

  • Avrahami et al. [2022] Omri Avrahami, Dani Lischinski, and Ohad Fried. Blended diffusion for text-driven editing of natural images. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18208–18218, 2022.
  • Chen et al. [2023] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart-α𝛼\alphaitalic_α: Fast training of diffusion transformer for photorealistic text-to-image synthesis. arXiv preprint arXiv:2310.00426, 2023.
  • Chen et al. [2024] Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, and Zhenguo Li. Pixart-{{\{{\\\backslash\delta}}\}}: Fast and controllable image generation with latent consistency models. arXiv preprint arXiv:2401.05252, 2024.
  • Devalal and Karthikeyan [2018] Shilpa Devalal and A Karthikeyan. Lora technology-an overview. In 2018 second international conference on electronics, communication and aerospace technology (ICECA), pages 284–290. IEEE, 2018.
  • Gal et al. [2022] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022.
  • Goodfellow et al. [2020] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Communications of the ACM, 63(11):139–144, 2020.
  • Hate [2024] Jacky Hate. Text-to-image-2m dataset. https://huggingface.co/datasets/jackyhate/text-to-image-2M, 2024.
  • Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
  • Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
  • Ke et al. [2021] Junjie Ke, Qifei Wang, Yilin Wang, Peyman Milanfar, and Feng Yang. Musiq: Multi-scale image quality transformer. In Proceedings of the IEEE/CVF international conference on computer vision, pages 5148–5157, 2021.
  • Kingma [2013] Diederik P Kingma. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.
  • Kumari et al. [2023] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-to-image diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1931–1941, 2023.
  • Labs [2024a] Black Forest Labs. Flux: Official inference repository for flux.1 models, 2024a. Accessed: 2024-11-12.
  • Labs [2024b] Shakker Labs. Flux.1-dev-controlnet-union-pro. https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro, 2024b.
  • Li et al. [2024a] Dongxu Li, Junnan Li, and Steven Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. Advances in Neural Information Processing Systems, 36, 2024a.
  • Li et al. [2025] Ming Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, and Chen Chen. Controlnet++: Improving conditional controls with efficient consistency feedback. In European Conference on Computer Vision, pages 129–147. Springer, 2025.
  • Li et al. [2024b] Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. Photomaker: Customizing realistic human photos via stacked id embedding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8640–8650, 2024b.
  • Lipman et al. [2022] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. arXiv preprint arXiv:2210.02747, 2022.
  • Ma et al. [2024] Jian Ma, Junhao Liang, Chen Chen, and Haonan Lu. Subject-diffusion: Open domain personalized text-to-image generation without test-time fine-tuning. In ACM SIGGRAPH 2024 Conference Papers, pages 1–12, 2024.
  • Meng et al. [2021] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073, 2021.
  • Mishchenko and Defazio [2024] Konstantin Mishchenko and Aaron Defazio. Prodigy: An expeditiously adaptive parameter-free learner. In Forty-first International Conference on Machine Learning, 2024.
  • Mou et al. [2024] Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, and Ying Shan. T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 4296–4304, 2024.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
  • Peng et al. [2024] Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, and Jiaya Jia. Controlnext: Powerful and efficient control for image and video generation. arXiv preprint arXiv:2408.06070, 2024.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Qin et al. [2023] Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, et al. Unicontrol: A unified diffusion model for controllable visual generation in the wild. arXiv preprint arXiv:2305.11147, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Rombach et al. [2021] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2021.
  • Ronneberger et al. [2015] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18, pages 234–241. Springer, 2015.
  • Ruan et al. [2023] Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, and Baining Guo. Mm-diffusion: Learning multi-modal diffusion models for joint audio and video generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10219–10228, 2023.
  • Ruiz et al. [2023] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22500–22510, 2023.
  • Saharia et al. [2022a] Chitwan Saharia, William Chan, Huiwen Chang, Chris Lee, Jonathan Ho, Tim Salimans, David Fleet, and Mohammad Norouzi. Palette: Image-to-image diffusion models. In ACM SIGGRAPH 2022 conference proceedings, pages 1–10, 2022a.
  • Saharia et al. [2022b] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in neural information processing systems, 35:36479–36494, 2022b.
  • Su et al. [2024] Jianlin Su, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.
  • Tian et al. [2024] Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, and Liwei Wang. Visual autoregressive modeling: Scalable image generation via next-scale prediction. arXiv preprint arXiv:2404.02905, 2024.
  • Wang et al. [2004] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 13(4):600–612, 2004.
  • XLabs-AI [2024] XLabs-AI. Flux-ip-adapter. https://huggingface.co/XLabs-AI/flux-ip-adapter, 2024.
  • Yang et al. [2022] Sidi Yang, Tianhe Wu, Shuwei Shi, Shanshan Lao, Yuan Gong, Mingdeng Cao, Jiahao Wang, and Yujiu Yang. Maniqa: Multi-dimension attention network for no-reference image quality assessment. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1191–1200, 2022.
  • Ye et al. [2023] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, and Wei Yang. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721, 2023.
  • Zavadski et al. [2023] Denis Zavadski, Johann-Friedrich Feiden, and Carsten Rother. Controlnet-xs: Designing an efficient and effective architecture for controlling text-to-image diffusion models. arXiv preprint arXiv:2312.06573, 2023.
  • Zhang et al. [2023] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023.
  • Zhang et al. [2024] Yuxuan Zhang, Yiren Song, Jiaming Liu, Rui Wang, Jinpeng Yu, Hao Tang, Huaxia Li, Xu Tang, Yao Hu, Han Pan, et al. Ssr-encoder: Encoding selective subject representation for subject-driven generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8069–8078, 2024.
  • Zhao et al. [2024] Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao, Shaozhe Hao, Lu Yuan, and Kwan-Yee K Wong. Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems, 36, 2024.

Appendix A Details of Subjects200K datasets

我々は、以前のデータセット[31, 12, 15, 17]におけるスケールと画像品質の制限に対処するために構築された包括的な合成データセットを提示する。我々のアプローチはFLUX.1-dev [13] を活用し、様々な条件下で同一の被写体の高品質で一貫性のある画像を生成している。

Subjects200Kデータセットは現在、類似のパイプラインを使用して生成された2つのスプリットで構成されている。 スプリット1は異なるシーンにおける物体のペア画像を含み、スプリット2は各物体のシーン画像とそれに対応するスタジオ写真をペアにしている。 方法論的な類似性のため、我々は主にスプリット2の合成プロセスと詳細について説明するが、両方のスプリットが公開されている。 我々の完全なSubjects200Kデータセットは、このリンクから完全にアクセスできる。

A.1 Generation pipeline

我々のデータセット生成プロセスは、説明文生成、画像合成、品質評価の3つの主要段階で構成されている。

説明文生成 我々はChatGPT-4oを用いて、説明文の階層構造を作成した: まず、家具、乗り物、電子機器、衣類などを含む42の多様なオブジェクトカテゴリーを生成した。 各カテゴリーに対して複数のオブジェクトインスタンスを作成し、合計4,696の固有オブジェクトとなった。各オブジェクトエントリは以下で構成される: (1) 簡潔な説明、 (2) 8つの多様なシーン説明、 (3) 1つのスタジオ写真説明。 図S2は、我々の構造化された説明文フォーマットの代表的な例を示している。

画像合成 我々は、FLUXの同一被写体を含むペア画像生成能力を活用するためのプロンプトテンプレートを設計した。我々のテンプレートは、簡潔なオブジェクト説明と2つの異なるシーン説明を組み合わせて包括的なプロンプトを合成し、被写体の一貫性を確保しつつ環境の変化を導入する。

詳細なプロンプト構造は図S3に示されている。 各プロンプトに対して、画像サイズを1056×528ピクセルに設定し、異なるランダムシードを用いて5枚の画像を生成し、データセットの多様性を確保した。トレーニングプロセスでは、まずペア画像を水平方向に分割し、その後中央部分を切り取って512×512ピクセルの画像ペアを得た。このパディング戦略は、生成された画像が正確に二分されていない場合に対処するために実装され、分割画像の誤った半分に潜在的なアーティファクトが現れるのを防ぐためである。

Refer to caption
図S1: Subjects200Kデータセットからの成功例と失敗例。緑のチェックマークは被写体のアイデンティティと特徴がよく保持されている成功例を示し、赤の×印は失敗例を示している。

品質評価 我々はChatGPT-4oのビジョン機能を活用して、FLUX.1-devによって生成された画像の品質を厳密に評価した。評価は複数の重要な側面に焦点を当てた:

  • 画像構成:各画像が適切に2つの並列ビューを含んでいることの確認。

  • 被写体の一貫性:被写体が両方のビューでアイデンティティを維持していることの確認。

  • 画像品質:高解像度と視覚的忠実性の確認。

厳格な品質基準を維持するために、各画像はChatGPT-4oによって5回の独立した評価を受けた。5回の評価すべてに合格した画像のみが我々のトレーニングデータセットに含まれた。図S1は、我々の品質管理されたデータセットからの代表的な例を示している。

{
"brief_description":
"A finely-crafted wooden seating piece.",
"scene_descriptions": [
"Set on a sandy shore at dusk, it faces the ocean with a gentle breeze rustling nearby palms, bathed in soft, warm twilight.",
"Positioned in a bustling urban cafe, it stands out against exposed brick walls, capturing the midday sun through a wide bay window."
// Additional six scene descriptions omitted
],
"studio_photo_description":
"In a professional studio against a plain white backdrop, it is captured in three-quarter view under uniform high-key lighting, showcasing the delicate grain and smooth of its finely-crafted surfaces."
}
図S2: データセット生成のための我々の構造化された説明文フォーマットの例。
prompt_1 = f"Two side-by-side images of the same object: {brief_description}"
prompt_2 = f"Left: {scene_description1}"
prompt_3 = f"Right: {scene_description2}"
prompt_image = f"{prompt_1}; {prompt_2}; {prompt_3}"
図S3: ペア画像生成のための我々のプロンプトテンプレート。このテンプレートは、簡潔なオブジェクト説明と2つの異なるシーン説明を組み合わせて、被写体の一貫性を維持しながら環境条件を変化させる。

A.2 Dataset Statistics

Split-2において、我々はまず42の異なるオブジェクトカテゴリを生成し、そこから4,696の詳細なオブジェクトインスタンスを作成および精選した。 次に、これらの記述を組み合わせて211,320の主題一貫性のある画像ペアを生成した。 GPT-4oを用いた厳密な品質管理を通じて、我々は最終的なデータセットとして111,767の高品質な画像ペアを選択した。 この広範な選別プロセスにより、画像品質と主題一貫性の最高基準が確保され、223,534の高品質な訓練画像のコレクションが得られた。

Appendix B Additional experimental results

B.1 Evaluation for subject-driven generation

フレームワークと基準。 被写体主導型生成の品質を体系的に評価するために、我々は被写体の特徴の保持と要求された修正の正確さの両方を評価する5つの基準からなるフレームワークを確立した:

  • アイデンティティの保持:本質的な識別特徴(例:ロゴ、ブランドマーク、特徴的なパターン)の保持を評価する

  • 素材の品質:素材の特性と表面の特徴が正確に表現されているかを評価する

  • 色の忠実性:修正が指定されていない領域で色が一貫しているかを評価する

  • 自然な外観:生成された画像が現実的で一貫性があるように見えるかを評価する

  • 修正の正確さ:テキストプロンプトで指定された変更が適切に実行されているかを検証する

Method Identity Material Color Natural Modification Average
preservation quality fidelity appearance accuracy score
Average over 5 random seeds
IP-Adapter (SD 1.5) 29.4 86.1 45.3 97.9 17.0 55.1
SSR-Encoder 46.0 92.0 54.2 96.3 28.5 63.4
IP-Adapter (FLUX) 11.8 65.8 30.8 98.1 57.7 52.8
Ours 50.6 84.3 55.0 98.5 75.8 72.8
Best score over 5 random seeds
IP-Adapter (SD 1.5) 56.3 98.9 70.1 99.7 37.2 72.5
SSR-Encoder 64.3 99.2 74.4 99.1 53.6 78.1
IP-Adapter (FLUX) 27.5 86.1 53.6 99.9 74.9 68.4
Ours 82.3 98.0 88.4 100.0 90.7 91.9
表S1: 異なる評価基準にわたる定量的評価結果(パーセンテージ)。値が高いほど、より良いパフォーマンスを示す。
Refer to caption
図S4: アイデンティティの一貫性、テキストと画像の整合性、視覚的一貫性の3つの指標にわたる異なる手法の比較に関するユーザー調査結果。

ユーザー調査。 我々のアプローチをさらに検証するために、375件の有効な回答を収集するユーザー調査を実施した。 参加者は、アイデンティティの一貫性、テキストと画像の整合性、被写体と背景の視覚的一貫性という3つの主要な側面にわたって生成された画像を評価した。 図S4に示された結果は、我々の定量的な発見を裏付けており、我々の手法がすべての評価基準において優れたパフォーマンスを達成していることを示している。

B.2 Additional generation results

我々の手法からの更なる生成結果を紹介する。 図S5はDreamBoothデータセットにおける追加の結果を示し、図S6は他の被写体駆動型生成タスクにおける我々の手法の有効性を実証している。

Refer to caption
図S5: DreamBoothデータセットにおけるさらなる結果。
Refer to caption
図S6: 他の被写体駆動型生成タスクにおけるさらなる結果。