JaLMS
最新の AI 研究を日本語で解読
None
Shufan Li∗1, Konstantinos Kallidromitis∗2, Akash Gokul∗3, Zichun Liao1
Yusuke Kato2, Kazuki Kozuka 2, Aditya Grover1
1 UCLA  2Panasonic AI Research  3Salesforce AI Research
*Equal Contribution
Correspondence to [email protected]
Abstract

我々は、テキストから画像、テキストから音声、音声から画像の合成など、あらゆる種類の生成タスクに対応する新しい生成モデルOmniFlowを紹介する。OmniFlowは、テキストから画像への変換モデルで使用される整流フロー(RF)フレームワークを発展させ、複数のモダリティの結合分布を扱えるようにしたものである。本モデルは、テキストから画像への変換や、テキストから音声への変換など、幅広いタスクにおいて、既存のあらゆる種類の変換モデルを凌駕する性能を示す。本稿では、以下の3つの主要な貢献を行う。第一に、RFをマルチモーダル設定に拡張し、新しいガイダンス機構を導入することで、生成された出力における異なるモダリティ間の整合性をユーザーが柔軟に制御できるようにした。第二に、Stable Diffusion 3のテキストから画像へのMMDiTアーキテクチャを拡張し、音声とテキストの生成を可能にする新しいアーキテクチャを提案した。拡張されたモジュールは個別に効率的に事前学習でき、従来のテキストから画像へのMMDiTと統合してファインチューニングすることができる。最後に、大規模な音声およびテキスト生成のための整流フロートランスフォーマーの設計選択について包括的な研究を行い、多様なモダリティにわたる性能最適化に関する貴重な知見を提供する。コードはhttps://github.com/jacklishufan/OmniFlowsで公開される予定である。

1 Introduction

生成モデリングは近年、著しい進歩を遂げている。特に、DALLE-3 [40]、Stable Diffusion 3 [11]、AudioLDM2 [33]などの拡散モデルは、テキストから画像、テキストから音声のタスクにおいて最先端の性能を達成している。しかし、これらのモデルは単一のタスクしか実行できず、訓練には膨大な計算リソースとデータを必要とする。任意の入力から任意の出力への生成を実現するために、CoDi [46]やUIO [36]などの先行研究は、通常、モダリティ固有のエンコーダー(例えば ViT [1])とデコーダー(例えば Stable Diffusion [44])のセットを組み合わせている。しかし、この設計はモデルがモダリティ間で情報を統合し、一貫性のあるマルチモーダル出力を生成する能力を制限している。例えば、音声+テキストから画像(A+T\rightarrowI)の生成を行う場合、CoDiは単に音声埋め込みとテキスト埋め込みの加重平均を取り、それを画像生成器の条件として使用する。しかし、平均化された埋め込みが2つの入力モダリティを忠実に表現できるという保証はない。なぜなら、任意の数のモダリティ埋め込みが同じ埋め込みに平均化される可能性があるからである。

任意の入力から任意の出力への生成のための代替アプローチは、単一のマルチモーダルモデルを使用して複数のモダリティの結合分布を学習することである。このアプローチは、モダリティ間で情報が流れることを可能にするため、しばしば強力な性能につながっている。しかし、既存の単一モデル設計は通常、ゼロからの訓練を伴うため、膨大な量のデータを必要とする。UniDiffuser [4]やChameleon [47]などのこの分野の既存の研究は、テキストと画像のモダリティのみを実験対象としている。また、これらは相当な計算リソースを必要とする。我々の知る限り、テキスト、画像、音声を同時にサポートする統一されたオープンソースのマルチモーダル生成モデルはまだ存在していない。

我々は、あらゆるモダリティ間の生成を可能にする統一マルチモーダル生成モデルOmniFlowを提案する。従来の統一マルチモーダルモデルとは異なり、OmniFlowはモジュラー設計により、大量のデータを用いて一から学習する必要がなく、学習に要する計算資源を大幅に節約できる。OmniFlowは、Stable Diffusion 3で使用されているMMDiTアーキテクチャ[11]にインスピレーションを得ている。MMDiTは、テキスト入力ストリームと画像出力ストリームを一連の結合注意ブロックを通じて組み合わせる二流ネットワークを用いてテキストから画像への生成を行う。OmniFlowはMMDiTを基に、追加の入力および出力ストリームを組み込むことで、テキストから画像への機能を拡張し、あらゆるモダリティ間の生成をサポートする。重要なのは、各ストリームのパラメータがほぼ独立しているため、個別に事前学習したり、事前学習済みの単一タスク専門モデル(例えばSD3)で初期化したりできることである。

OmniFlowを効果的に学習させるため、本稿では新しいマルチモーダル整流フロー定式化を提案する。これにより、テキストから音声、音声から画像などの多様なタスクを統一的な学習目的関数に組み込むことができる。マルチモーダル整流フローは、マルチモーダルデータペアの分布と独立同一分布のガウスノイズとの間の、時間微分可能な分離解釈に基づいている。この定式化では、あらゆるモダリティ間の生成タスクを2つのノイズレベルを結ぶパスで表現できる。例えば、テキスト、画像、音声のモダリティが与えられた場合、テキスト+音声から画像への生成タスク(T+A\rightarrowI)は、(クリーンなテキスト、クリーンな音声、ガウスノイズ)の分布から(クリーンなテキスト、クリーンな音声、クリーンな画像)への分布へのパスとして表現できる。

我々はOmniFlowの広範な評価を行った。実験結果は、OmniFlowがテキストから画像、テキストから音声の生成を含む幅広いタスクにおいて、従来のあらゆるモダリティ間モデルを凌駕することを示している。単一タスク専門モデルと比較しても、OmniFlowは最先端の手法と競合する性能を達成している。

要約すると、我々の貢献は以下の3点である:

  • 第一に、我々は整流フロー定式化をマルチモーダル設定に拡張し、統一的なフレームワークにおいてあらゆるモダリティ間の生成の柔軟な学習をサポートする。

  • 第二に、我々はあらゆるモダリティ間の生成タスクのための新規のモジュラー型マルチモーダルアーキテクチャであるOmniFlowを提案した。これにより、複数のモダリティが互いに直接相互作用することが可能になる一方で、個々のコンポーネントを独立して事前学習したり、タスク固有の専門モデルから初期化したりできるほど十分にモジュール化されている。

  • 最後に、我々の知る限り、本稿は音声およびテキスト生成のための拡散トランスフォーマーと最先端のフローマッチング目的関数を組み合わせる様々な方法について体系的な調査を提供する初めての研究である。我々は有意義な洞察を提供し、コミュニティがテキストから画像への生成タスクを超えた将来のマルチモーダル拡散モデルを開発する一助となることを期待している。

Refer to caption
図2: OmniFlowのパイプライン。CoDi [46](上)のような以前のあらゆるモダリティ間モデルは、複数のモダリティ固有のエンコーダーとデコーダーを連結し、複数のモダリティの埋め込みを単純に平均化して共同条件付けを実現している。対照的に、OmniFlow(下)は統一された、モジュラー型のマルチモーダルモデルであり、異なるモダリティからの特徴が共同注意層を通じて直接相互作用する。OmniFlowは、テキストから画像へのモデルであるStable Diffusion 3 [11](中)のモジュラー設計にインスピレーションを得ている。

2 Backgrounds

2.1 Flow-Based Generative Models

フローベースの生成モデル[34, 31, 23, 48]は、データポイントx0superscript𝑥0x^{0}italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPTとノイズ分布x1superscript𝑥1x^{1}italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTの結合を、以下の常微分方程式(ODE)を用いて表現する:

dxt=vθ(xt,t)dt𝑑superscript𝑥𝑡subscript𝑣𝜃superscript𝑥𝑡𝑡𝑑𝑡dx^{t}=v_{\theta}(x^{t},t)dtitalic_d italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT = italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_t ) italic_d italic_t (1)

ここで、速度v𝑣vitalic_vはニューラルネットワークによってパラメータ化される。この方程式を直接解くことは計算コストが高い。しかし、我々は順方向プロセスxt=a(t)x0+b(t)x1superscript𝑥𝑡𝑎𝑡superscript𝑥0𝑏𝑡superscript𝑥1x^{t}=a(t)x^{0}+b(t)x^{1}italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT = italic_a ( italic_t ) italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT + italic_b ( italic_t ) italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTを定義し、条件付きフローマッチング(CFM)目的関数[48]を用いて条件付きベクトル場を直接回帰することができる:

CFM=(b(t)λ(t)2)𝔼t,x1,xt|x1ϵθ(xt,t)x12subscriptCFM𝑏𝑡superscript𝜆𝑡2subscript𝔼𝑡superscript𝑥1conditionalsuperscript𝑥𝑡superscript𝑥1superscriptdelimited-∥∥subscriptitalic-ϵ𝜃superscript𝑥𝑡𝑡superscript𝑥12\mathcal{L_{\text{CFM}}}=(-\frac{b(t)\lambda^{\prime}(t)}{2})\mathbb{E}_{t,x^{% 1},x^{t}|x^{1}}\lVert\epsilon_{\theta}(x^{t},t)-x^{1}\rVert^{2}caligraphic_L start_POSTSUBSCRIPT CFM end_POSTSUBSCRIPT = ( - divide start_ARG italic_b ( italic_t ) italic_λ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) end_ARG start_ARG 2 end_ARG ) blackboard_E start_POSTSUBSCRIPT italic_t , italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT | italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT end_POSTSUBSCRIPT ∥ italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_t ) - italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT (2)

ここで、λ(t)=logα(t)2β(t)2𝜆𝑡𝛼superscript𝑡2𝛽superscript𝑡2\lambda(t)=\log\frac{\alpha(t)^{2}}{\beta(t)^{2}}italic_λ ( italic_t ) = roman_log divide start_ARG italic_α ( italic_t ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG italic_β ( italic_t ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARGは信号対雑音比(SNR)であり、ϵθ(xt,t)=2λ(t)b(t)(vθ(xt,t)α(t)α(t)xt)subscriptitalic-ϵ𝜃superscript𝑥𝑡𝑡2superscript𝜆𝑡𝑏𝑡subscript𝑣𝜃superscript𝑥𝑡𝑡superscript𝛼𝑡𝛼𝑡superscript𝑥𝑡\epsilon_{\theta}(x^{t},t)=-\frac{2}{\lambda^{\prime}(t)b(t)}(v_{\theta}(x^{t}% ,t)-\frac{\alpha^{\prime}(t)}{\alpha(t)}x^{t})italic_ϵ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_t ) = - divide start_ARG 2 end_ARG start_ARG italic_λ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) italic_b ( italic_t ) end_ARG ( italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_t ) - divide start_ARG italic_α start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) end_ARG start_ARG italic_α ( italic_t ) end_ARG italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )vθsubscript𝑣𝜃v_{\theta}italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTによってパラメータ化される。この目的関数の最適値は、時間依存の重み付けを導入しても変わらないため、[22]に従って以下のように書き直すことができる:

Lw(x0)=12𝔼t,x1w(t)λ(t)ϵΘ(zt,t)ϵ2subscript𝐿𝑤subscript𝑥012subscript𝔼𝑡superscript𝑥1𝑤𝑡superscript𝜆𝑡superscriptnormsubscriptitalic-ϵΘsubscript𝑧𝑡𝑡italic-ϵ2L_{w}(x_{0})=-\frac{1}{2}\mathbb{E}_{t,\,x^{1}}\,w(t)\lambda^{\prime}(t)\|% \epsilon_{\Theta}(z_{t},t)-\epsilon\|^{2}italic_L start_POSTSUBSCRIPT italic_w end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) = - divide start_ARG 1 end_ARG start_ARG 2 end_ARG blackboard_E start_POSTSUBSCRIPT italic_t , italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_w ( italic_t ) italic_λ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) ∥ italic_ϵ start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT , italic_t ) - italic_ϵ ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT (3)

ここで、CFMの場合w(t)=12λ(t)b(t)2𝑤𝑡12superscript𝜆𝑡𝑏superscript𝑡2w(t)=-\frac{1}{2}\lambda^{\prime}(t)b(t)^{2}italic_w ( italic_t ) = - divide start_ARG 1 end_ARG start_ARG 2 end_ARG italic_λ start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT ( italic_t ) italic_b ( italic_t ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTであり、x1𝒩(0,I)similar-tosuperscript𝑥1𝒩0𝐼x^{1}\sim\mathcal{N}(0,I)italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∼ caligraphic_N ( 0 , italic_I )はノイズ分布に従う。この定式化により、様々な生成モデリングアプローチを統一的に表現することができる。例えば、整流フローの順方向プロセスはxt=(1t)x0+tx1superscript𝑥𝑡1𝑡superscript𝑥0𝑡superscript𝑥1x^{t}=(1-t)x^{0}+tx^{1}italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT = ( 1 - italic_t ) italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT + italic_t italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTと定義され、これはwRF=t1tsuperscript𝑤RF𝑡1𝑡w^{\text{RF}}=\frac{t}{1-t}italic_w start_POSTSUPERSCRIPT RF end_POSTSUPERSCRIPT = divide start_ARG italic_t end_ARG start_ARG 1 - italic_t end_ARGに対応する。Esserら[11]は、この統一的な定式化の下で、(LDM)-Linear[44]やCosine[39]を含む一般的な手法の多くの構成をまとめた。彼らはまた、テキストから画像への生成のためのタイムステップt𝑡titalic_tのロジット正規分布を探索した。我々は、これらの変種をマルチモーダル生成、特に音声とテキストの文脈で探索する。なぜなら、テキストから画像への領域での結果が直接一般化できるかどうかが不明確だからである。

2.2 Any to Any Generation

先行研究では、任意から任意への生成が探求されてきた。CoDi [46]は、複数のモダリティ固有のエンコーダー(例えばViT)とデコーダー(例えばStable Diffusion)をブリッジアラインメントを通じて組み合わせることで、最初にこれを達成した。しかし、その設計はクロスモダリティの相互作用が限られている。例えば、テキスト+音声から画像への生成(T+A\rightarrowI生成)を実現するために、単にテキスト埋め込みと音声埋め込みの加重平均を計算するだけである。Unified-IO [36]は任意から任意への生成を系列対系列問題としてモデル化し、自己回帰モデルを使用してテキストから画像やテキストから音声などの任意から任意への生成を実現している。本稿は、任意から任意のタスクにマルチモーダルフローマッチング目的関数を使用した最初の研究である。

他の研究では、テキストから画像への生成と画像からテキストへの生成の統合に焦点を当てている。Chameleon [47]は、LLMのような大規模な自己回帰モデルを使用してマルチモーダルデータを扱う。画像はVQGANトークン [50]として表現される。Transfusion [52]は類似の設計を採用しているが、画像モデリングには非自己回帰的な拡散損失を使用し、テキスト生成には自己回帰的な損失を維持している。これらの統合されたマルチモーダルモデルは成功を収めているものの、複数のモデルを組み合わせた以前の研究よりもモジュール性が低いため、かなりの訓練リソースを必要とする。OmniFlowは、各モダリティのパラメータを分離しつつ、各モダリティの特徴が各層で自由に相互作用できるようにすることで、良好なバランスを達成している。

3 Method

3.1 Multi-Modal Rectified Flow

我々は、ペアのマルチモーダルデータ空間上の結合分布 (x10,x20,..xn0)πdata(x_{1}^{0},x_{2}^{0},..x_{n}^{0})\sim\pi_{data}( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , . . italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) ∼ italic_π start_POSTSUBSCRIPT italic_d italic_a italic_t italic_a end_POSTSUBSCRIPT を考える。ここで xidisubscript𝑥𝑖superscriptsubscript𝑑𝑖x_{i}\subseteq\mathbb{R}^{d_{i}}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ⊆ blackboard_R start_POSTSUPERSCRIPT italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT はモダリティ i𝑖iitalic_i のサンプルであり、disubscript𝑑𝑖d_{i}italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 次元のベクトルで表現される。(x11,x21,..xn1)π1(x_{1}^{1},x_{2}^{1},..x_{n}^{1})\sim\pi^{1}( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , . . italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ) ∼ italic_π start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT を独立同分布のガウス分布とし、xi1𝒩(0,I)similar-tosuperscriptsubscript𝑥𝑖1𝒩0Ix_{i}^{1}\sim\mathcal{N}(\textbf{0},\textbf{I})italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∼ caligraphic_N ( 0 , I )disubscript𝑑𝑖d_{i}italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 次元のガウスベクトルとする。経験的観測 x0πdatasimilar-tosuperscript𝑥0subscript𝜋𝑑𝑎𝑡𝑎x^{0}\sim\pi_{data}italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ∼ italic_π start_POSTSUBSCRIPT italic_d italic_a italic_t italic_a end_POSTSUBSCRIPT および x1π1similar-tosuperscript𝑥1superscript𝜋1x^{1}\sim\pi^{1}italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∼ italic_π start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT が与えられたとき、我々は以下の分離された、連続的な、時間微分補間を考える:

xititisuperscriptsubscript𝑥𝑖subscript𝑡𝑖subscript𝑡𝑖\displaystyle\frac{\partial x_{i}^{t_{i}}}{\partial t_{i}}divide start_ARG ∂ italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG start_ARG ∂ italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_ARG =vi(x1t1,x2t2,,xiti,t1,,ti)absentsubscript𝑣𝑖superscriptsubscript𝑥1subscript𝑡1superscriptsubscript𝑥2subscript𝑡2superscriptsubscript𝑥𝑖subscript𝑡𝑖subscript𝑡1subscript𝑡𝑖\displaystyle=v_{i}(x_{1}^{t_{1}},x_{2}^{t_{2}},\dots,x_{i}^{t_{i}},t_{1},% \dots,t_{i})= italic_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , … , italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) (4)
xititjsuperscriptsubscript𝑥𝑖subscript𝑡𝑖subscript𝑡𝑗\displaystyle\frac{\partial x_{i}^{t_{i}}}{\partial t_{j}}divide start_ARG ∂ italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG start_ARG ∂ italic_t start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_ARG =0;ijformulae-sequenceabsent0𝑖𝑗\displaystyle=0;i\neq j= 0 ; italic_i ≠ italic_j (5)
xitisuperscriptsubscript𝑥𝑖subscript𝑡𝑖\displaystyle x_{i}^{t_{i}}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT =(1ti)xi0+tixi1absent1subscript𝑡𝑖subscriptsuperscript𝑥0𝑖subscript𝑡𝑖subscriptsuperscript𝑥1𝑖\displaystyle=(1-t_{i})x^{0}_{i}+t_{i}x^{1}_{i}= ( 1 - italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT + italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT (6)

ここで、式(2)の独立条件は xitisuperscriptsubscript𝑥𝑖subscript𝑡𝑖x_{i}^{t_{i}}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPTtisubscript𝑡𝑖t_{i}italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT が動くときのみ動くことを示している。この解釈空間上で、我々はパス τ:t(t1,t2..tn);[0,1][0,1]n\tau:t\rightarrow(t_{1},t_{2}..t_{n});[0,1]\rightarrow[0,1]^{n}italic_τ : italic_t → ( italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . . italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ; [ 0 , 1 ] → [ 0 , 1 ] start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT を用いて、これらのモダリティを含む任意から任意への生成タスクをモデル化できる。例えば、(x1,x2,x3)pdatasimilar-tosubscript𝑥1subscript𝑥2subscript𝑥3subscript𝑝𝑑𝑎𝑡𝑎(x_{1},x_{2},x_{3})\sim p_{data}( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) ∼ italic_p start_POSTSUBSCRIPT italic_d italic_a italic_t italic_a end_POSTSUBSCRIPT が与えられたとき、x1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT はそれぞれ画像、テキスト、音声のモダリティである。我々はテキストから画像への(T\rightarrowI)タスクを、τt2isubscript𝜏𝑡2𝑖\tau_{t2i}italic_τ start_POSTSUBSCRIPT italic_t 2 italic_i end_POSTSUBSCRIPT というパスとしてモデル化できる。ここで、τt2i(0)=(0,0,1)subscript𝜏𝑡2𝑖0001\tau_{t2i}(0)=(0,0,1)italic_τ start_POSTSUBSCRIPT italic_t 2 italic_i end_POSTSUBSCRIPT ( 0 ) = ( 0 , 0 , 1 ) はクリーンなテキスト-画像ペアを表し、τt2i(1)=(1,0,1)subscript𝜏𝑡2𝑖1101\tau_{t2i}(1)=(1,0,1)italic_τ start_POSTSUBSCRIPT italic_t 2 italic_i end_POSTSUBSCRIPT ( 1 ) = ( 1 , 0 , 1 ) はクリーンなテキストを表す。同様に、テキスト、画像、音声セットの結合サンプリングを (0,0,0)000(0,0,0)( 0 , 0 , 0 ) から (1,1,1)111(1,1,1)( 1 , 1 , 1 ) へのパスとしてモデル化でき、テキスト+画像から音声への(T+IA𝑇𝐼𝐴T+I\rightarrow Aitalic_T + italic_I → italic_A)タスクを (0,0,0)000(0,0,0)( 0 , 0 , 0 ) から (0,0,1)001(0,0,1)( 0 , 0 , 1 ) へのパスとしてモデル化できる。

フローマッチング目的関数は、各モダリティに対して以下の形式の n𝑛nitalic_n 個の最小二乗回帰問題を解くことになる:

minvθi𝔼ττ𝔼x0,x1vivθ,i(x1t1,x2t2,xntn,t1..tn)2ds\min_{v_{\theta}^{i}}\mathbb{E}_{\tau}\int_{\tau}\mathbb{E}_{x^{0},x^{1}}% \lVert v_{i}-v_{\theta,i}(x_{1}^{t_{1}},x_{2}^{t_{2}},...x_{n}^{t_{n}},t_{1}..% t_{n})\rVert^{2}dsroman_min start_POSTSUBSCRIPT italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_i end_POSTSUPERSCRIPT end_POSTSUBSCRIPT blackboard_E start_POSTSUBSCRIPT italic_τ end_POSTSUBSCRIPT ∫ start_POSTSUBSCRIPT italic_τ end_POSTSUBSCRIPT blackboard_E start_POSTSUBSCRIPT italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT end_POSTSUBSCRIPT ∥ italic_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - italic_v start_POSTSUBSCRIPT italic_θ , italic_i end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , … italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT . . italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT italic_d italic_s (7)

ここで、vi=xi0xi1subscript𝑣𝑖superscriptsubscript𝑥𝑖0superscriptsubscript𝑥𝑖1v_{i}=x_{i}^{0}-x_{i}^{1}italic_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT - italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT であり、vθ,isubscript𝑣𝜃𝑖v_{\theta,i}italic_v start_POSTSUBSCRIPT italic_θ , italic_i end_POSTSUBSCRIPTθ𝜃\thetaitalic_θ によってパラメータ化されたニューラルネットワークである。我々は同じネットワーク θ𝜃\thetaitalic_θ を用いて、すべてのモダリティ 1,2..N1,2..N1 , 2 . . italic_N の出力を予測する。外側の期待値は、我々が興味を持つ生成タスクをエンコードするパスの事前分布に対するものである。積分はパス τ(t)=(t1,tn)𝜏𝑡subscript𝑡1subscript𝑡𝑛\tau(t)=(t_{1},...t_{n})italic_τ ( italic_t ) = ( italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) 上で計算され、ds=titdt𝑑𝑠subscript𝑡𝑖𝑡𝑑𝑡ds=\frac{\partial t_{i}}{\partial t}dtitalic_d italic_s = divide start_ARG ∂ italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_ARG start_ARG ∂ italic_t end_ARG italic_d italic_t である。具体的には、我々の実験では画像、テキスト、音声をそれぞれモダリティ1、2、3として考える。我々は整流フロー定式化に従い、[0,1]3superscript013[0,1]^{3}[ 0 , 1 ] start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT における可能なすべての線形パス τ(t)=(t1,t2,t3)𝜏𝑡subscript𝑡1subscript𝑡2subscript𝑡3\tau(t)=(t_{1},t_{2},t_{3})italic_τ ( italic_t ) = ( italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) の分布を考える。これらは、テキストから画像やテキスト+画像から音声など、多様なタスクをエンコードできる。

訓練中、必ずしもすべてのデータポイントに対してすべてのモダリティが必要というわけではない。3つのモダリティのうち一部のみを含むデータポイント(例:テキスト-画像ペア)に対しては、残りのモダリティ(例:音声)の時間ステップを1に設定できる。これは完全なガウスノイズに対応する。完全な訓練アルゴリズムは以下の通りである:

アルゴリズム1 マルチモーダル整流フロー
1:入力: モダリティ 1,N1𝑁1,...N1 , … italic_N からなるデータセット 𝒟𝒟\mathcal{D}caligraphic_D。各サンプル x=(xi10,xi20,..)x=(x_{i1}^{0},x_{i2}^{0},..)italic_x = ( italic_x start_POSTSUBSCRIPT italic_i 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT italic_i 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , . . ) はモダリティ i1,i2..{1,2,..N}i_{1},i_{2}..\in\{1,2,..N\}italic_i start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . . ∈ { 1 , 2 , . . italic_N } の部分集合(または全て)からなる。
2:出力:i=1,2..Ni=1,2..Nitalic_i = 1 , 2 . . italic_N に対する vθ,i:(x1t1,x2t2,xntn)viti:subscript𝑣𝜃𝑖superscriptsubscript𝑥1subscript𝑡1superscriptsubscript𝑥2subscript𝑡2superscriptsubscript𝑥𝑛subscript𝑡𝑛superscriptsubscript𝑣𝑖subscript𝑡𝑖v_{\theta,i}:(x_{1}^{t_{1}},x_{2}^{t_{2}},...x_{n}^{t_{n}})\rightarrow v_{i}^{% t_{i}}italic_v start_POSTSUBSCRIPT italic_θ , italic_i end_POSTSUBSCRIPT : ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , … italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ) → italic_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPTθ𝜃\thetaitalic_θ によってパラメータ化される。
3:θ𝜃\thetaitalic_θ を初期化
4:収束するまで 繰り返す
5: x=(xi10,xi20,..)𝒟x=(x_{i1}^{0},x_{i2}^{0},..)\sim\mathcal{D}italic_x = ( italic_x start_POSTSUBSCRIPT italic_i 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT italic_i 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , . . ) ∼ caligraphic_D をサンプリング
6: xj00;j{1,2..N}{i1,i2}x_{j}^{0}\leftarrow\textbf{0};\forall j\in\{1,2..N\}\setminus\{i1,i2...\}italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ← 0 ; ∀ italic_j ∈ { 1 , 2 . . italic_N } ∖ { italic_i 1 , italic_i 2 … }
7: パス τ𝜏\tauitalic_τ をサンプリング*
8: tUniform([0,1])similar-to𝑡Uniform01t\sim\text{Uniform}([0,1])italic_t ∼ Uniform ( [ 0 , 1 ] ) をサンプリング
9: (t1tN)τ(t)subscript𝑡1subscript𝑡𝑁𝜏𝑡(t_{1}...t_{N})\leftarrow\tau(t)( italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT … italic_t start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT ) ← italic_τ ( italic_t )
10: xitixiti=(1ti)xi0+tixi1;i1,2..Nx_{i}^{t_{i}}\leftarrow x_{i}^{t_{i}}=(1-t_{i})x^{0}_{i}+t_{i}x^{1}_{i};% \forall i\in{1,2..N}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT ← italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_POSTSUPERSCRIPT = ( 1 - italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) italic_x start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT + italic_t start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT italic_x start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ; ∀ italic_i ∈ 1 , 2 . . italic_N
11: =i{i1,i2..}vivθ,i(x1t1,xntn,t1..tn)2\mathcal{L}=\sum_{i\in\{i_{1},i_{2}..\}}\lVert v_{i}-v_{\theta,i}(x_{1}^{t_{1}% },...x_{n}^{t_{n}},t_{1}..t_{n})\rVert^{2}caligraphic_L = ∑ start_POSTSUBSCRIPT italic_i ∈ { italic_i start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . . } end_POSTSUBSCRIPT ∥ italic_v start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - italic_v start_POSTSUBSCRIPT italic_θ , italic_i end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , … italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT , italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT . . italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ∥ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT
12: θsubscript𝜃\nabla_{\theta}\mathcal{L}∇ start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT caligraphic_L を用いて最適化ステップを実行
13:終了 繰り返し
14:返値 θ𝜃\thetaitalic_θ
15:\triangleright * τ𝜏\tauitalic_τ はモダリティ i1,i2..subscript𝑖1subscript𝑖2i_{1},i_{2}..italic_i start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . . のみを含むタスクをエンコードするため、tj=1;j{i1,i2..}t_{j}=1;\forall j\notin\{i_{1},i_{2}..\}italic_t start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = 1 ; ∀ italic_j ∉ { italic_i start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_i start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT . . }

推論時には、単にパスを選択し、ネットワーク予測を用いて 5を解く。特筆すべきは、(x1,x2)subscript𝑥1subscript𝑥2(x_{1},x_{2})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) ペアを用いた標準的なテキストから画像への生成において、x1subscript𝑥1x_{1}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT は画像、x2subscript𝑥2x_{2}italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT はテキスト、x3subscript𝑥3x_{3}italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT は欠落している音声モダリティである場合、(1,0,1)101(1,0,1)( 1 , 0 , 1 ) から (0,0,1)001(0,0,1)( 0 , 0 , 1 ) への線形パスを選択することは、Stable Diffusion 3 [11] で使用される標準的な単一モダリティ整流フロー(テキスト\rightarrow画像)定式化と等価である。

3.2 Multi-Modal Guidance

マルチモーダル生成プロセスを柔軟に制御するために、我々はクラシファイアフリーガイダンス(CFG)[16]をマルチモーダル整流フロー設定に拡張する。単一モダリティのCFGは以下のように定式化されることを思い出されたい:

v^θ(xt,c)=vθ(xt,c)+(α1)(vθ(xt,c)vθ(xt))subscript^𝑣𝜃superscript𝑥𝑡𝑐subscript𝑣𝜃superscript𝑥𝑡𝑐𝛼1subscript𝑣𝜃superscript𝑥𝑡𝑐subscript𝑣𝜃superscript𝑥𝑡\hat{v}_{\theta}(x^{t},c)=v_{\theta}(x^{t},c)+(\alpha-1)(v_{\theta}(x^{t},c)-v% _{\theta}(x^{t}))over^ start_ARG italic_v end_ARG start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_c ) = italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_c ) + ( italic_α - 1 ) ( italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_c ) - italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ) ) (8)

ここで、c𝑐citalic_cは条件であり、xtsuperscript𝑥𝑡x^{t}italic_x start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPTは単一モーダル出力のタイムステップt𝑡titalic_tにおけるノイズ付きの潜在変数である。我々はこの定式化を、入力モダリティj𝑗jitalic_jから出力モダリティi𝑖iitalic_iへの影響を表すδij=vθ(xit,xj0)vθ(xit)subscript𝛿𝑖𝑗subscript𝑣𝜃superscriptsubscript𝑥𝑖𝑡superscriptsubscript𝑥𝑗0subscript𝑣𝜃superscriptsubscript𝑥𝑖𝑡\delta_{ij}=v_{\theta}(x_{i}^{t},x_{j}^{0})-v_{\theta}(x_{i}^{t})italic_δ start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT = italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) - italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )を定義することで、マルチモーダル設定に拡張する。具体的には、式に含まれないモダリティの入力をガウシアンノイズに設定することで、vθ(xit,xj0)subscript𝑣𝜃superscriptsubscript𝑥𝑖𝑡superscriptsubscript𝑥𝑗0v_{\theta}(x_{i}^{t},x_{j}^{0})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT )vθ(xit)subscript𝑣𝜃superscriptsubscript𝑥𝑖𝑡v_{\theta}(x_{i}^{t})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )を得る。例えば、3つのモダリティx1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPTが与えられた場合、vθ(x1t,x20,x31)subscript𝑣𝜃superscriptsubscript𝑥1𝑡superscriptsubscript𝑥20superscriptsubscript𝑥31v_{\theta}(x_{1}^{t},x_{2}^{0},x_{3}^{1})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT )を計算することでvθ(x1t,x20)subscript𝑣𝜃superscriptsubscript𝑥1𝑡superscriptsubscript𝑥20v_{\theta}(x_{1}^{t},x_{2}^{0})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT )を得ることができ、vθ(x1t,x21,x31)subscript𝑣𝜃superscriptsubscript𝑥1𝑡superscriptsubscript𝑥21superscriptsubscript𝑥31v_{\theta}(x_{1}^{t},x_{2}^{1},x_{3}^{1})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT )を計算することでvθ(x1t)subscript𝑣𝜃superscriptsubscript𝑥1𝑡v_{\theta}(x_{1}^{t})italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT )を得ることができる。なお、x21,x31superscriptsubscript𝑥21superscriptsubscript𝑥31x_{2}^{1},x_{3}^{1}italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPTは単なるガウシアンノイズである。

δijsubscript𝛿𝑖𝑗\delta_{ij}italic_δ start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPTの集合が与えられた場合、以下の式によってモダリティiの出力生成をガイドすることができる:

v^θ(x1t1xntn)=vθ(x1t1xntn)+ji(αij1)δijsubscript^𝑣𝜃subscriptsuperscript𝑥subscript𝑡11subscriptsuperscript𝑥subscript𝑡𝑛𝑛subscript𝑣𝜃subscriptsuperscript𝑥subscript𝑡11subscriptsuperscript𝑥subscript𝑡𝑛𝑛subscript𝑗𝑖subscript𝛼𝑖𝑗1subscript𝛿𝑖𝑗\hat{v}_{\theta}(x^{t_{1}}_{1}...x^{t_{n}}_{n})=v_{\theta}(x^{t_{1}}_{1}...x^{% t_{n}}_{n})+\sum_{j\neq i}(\alpha_{ij}-1)\delta_{ij}over^ start_ARG italic_v end_ARG start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT … italic_x start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) = italic_v start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT … italic_x start_POSTSUPERSCRIPT italic_t start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) + ∑ start_POSTSUBSCRIPT italic_j ≠ italic_i end_POSTSUBSCRIPT ( italic_α start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT - 1 ) italic_δ start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT (9)

ここで、αijsubscript𝛼𝑖𝑗\alpha_{ij}italic_α start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPTはマルチモーダル設定におけるα𝛼\alphaitalic_αに相当する。このスキームにより、ユーザーは各入力モダリティと出力モダリティ間の相互作用を正確に制御することができる。モダリティが2つのみの場合、我々のマルチモーダルガイダンス 9は標準的な単一モーダルのクラシファイアフリーガイダンス 8と等価である。

Refer to caption
(a) OmniFlowの全体的なパイプライン
Refer to caption
(b) Omni-Transformerブロックの設計
図3: OmniFlowのアーキテクチャ。左:OmniFlowのアーキテクチャを強調している。右:個々のOmni-Transformerブロックの設計を示している。

3.3 Model Architecture

我々は、Stable Diffusion 3で使用されているMMDiTアーキテクチャに対する、モジュラーで効果的な拡張であるOmniFlowを提案する。具体的には、テキスト、画像、音声からなるマルチモーダル入力が与えられた場合、まずモダリティ固有のVAEを使用してそれらを潜在変数 x1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT に変換する。次に、 6で定義された順方向プロセスに従って、潜在変数にランダムなガウスノイズを加える。我々は、各モダリティのノイズスケールに相関する t1,t2,t3subscript𝑡1subscript𝑡2subscript𝑡3t_{1},t_{2},t_{3}italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT をエンコードするために3つの正弦波埋め込みを使用する。これら3つのタイムステップ埋め込みはMLPに渡され、すべてのモダリティ固有のタイムステップを表す単一の埋め込み y𝑦yitalic_y が得られる。OmniFlowへの最終的な入力は、統一されたタイムステップ埋め込みyとノイズが加えられた潜在変数 (x1,x2,x3)subscript𝑥1subscript𝑥2subscript𝑥3(x_{1},x_{2},x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) である。これら4つの入力ベクトルは N𝑁Nitalic_N 個の連続したOmni-Transformerブロックに渡される。各モダリティの最終的な隠れ状態は、線形出力層によって処理され、v𝑣vitalic_v の予測が得られる。

各Omni-Transformerブロック内では、入力 x1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT はモダリティ固有の射影によって処理され、q1,k1,v1,q2,k2,v2,q3,k3,v3subscript𝑞1subscript𝑘1subscript𝑣1subscript𝑞2subscript𝑘2subscript𝑣2subscript𝑞3subscript𝑘3subscript𝑣3q_{1},k_{1},v_{1},q_{2},k_{2},v_{2},q_{3},k_{3},v_{3}italic_q start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT が得られる。次に、クエリ、キー、バリューを連結して Q=Concat(q1,q2,q3),K=Concat(k1,k2,k3),V=Concat(v1,v2,v3)formulae-sequence𝑄Concatsubscript𝑞1subscript𝑞2subscript𝑞3formulae-sequence𝐾Concatsubscript𝑘1subscript𝑘2subscript𝑘3𝑉Concatsubscript𝑣1subscript𝑣2subscript𝑣3Q=\text{Concat}(q_{1},q_{2},q_{3}),K=\text{Concat}(k_{1},k_{2},k_{3}),V=\text{% Concat}(v_{1},v_{2},v_{3})italic_Q = Concat ( italic_q start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_q start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) , italic_K = Concat ( italic_k start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_k start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) , italic_V = Concat ( italic_v start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_v start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) を得る。i番目のモダリティの結合注意出力 outisubscriptout𝑖\text{out}_{i}out start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT は以下のように与えられる:

outi=SoftMax(qiTKd)Vsubscriptout𝑖SoftMaxsuperscriptsubscript𝑞𝑖𝑇𝐾𝑑𝑉\text{out}_{i}=\text{SoftMax}(\frac{q_{i}^{T}K}{\sqrt{d}})Vout start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = SoftMax ( divide start_ARG italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT italic_K end_ARG start_ARG square-root start_ARG italic_d end_ARG end_ARG ) italic_V (10)

ここで、d𝑑ditalic_d は各注意ヘッドの次元である。出力はフィードフォワードネットワーク(FFN)に渡され、Omni-Transformerブロックの最終出力が得られる。DiT [41] の設計に従い、我々は統一されたタイム埋め込みを使用してqkv射影とFFNを変調する。結合注意操作の後とFFNの後にスキップ接続を追加する。

モデルアーキテクチャを 3 に示す。特筆すべきは、異なるモダリティが独立したパラメータを持つ異なる射影層とフィードフォワード層によって処理されることである。唯一のマルチモーダル操作は結合注意であり、それ自体には学習可能なパラメータがない。これにより、異なるモダリティの層を個別に事前学習し、微調整のために組み合わせることが可能となり、学習効率が大幅に向上する。

4 Setup

4.1 Training Dataset

我々は訓練中にテキスト-画像ペア、テキスト-音声ペア、および音声-画像ペアを使用する。また、少量のテキスト-画像-音声トリプレットも使用する。テキスト-画像ペアには、COYO-700Mデータセット[5]からサンプリングした5M画像、LAION-Aesthetic-3Mサブセット[25]からサンプリングした2M画像、LAION-COCOサブセット[26]からの7M画像、CC12Mデータセット[6]の全体、およびflux-devとDALLE-3[14]によって生成された2Mの高品質画像データセットが含まれる。出力の美的品質を維持するため、LAION-Aesthetic-3Mからの画像と2Mの高品質画像に高い重みを置いている。テキスト-音声ペアには、AudioSet[12]、Audiocaps[21]、およびWavCaps[37]の全訓練セットが含まれる。音声-画像ペアには、VGGSound[7]とSoundNet[2]の訓練データが含まれる。SoundNetは2M画像を含み、VGGSoundよりも大きいが、SoundNetには不適切にリサイズされたアスペクト比の悪い画像が多く含まれているため、VGGSoundとSoundNetのサンプル重みを2:1に設定している。

テキスト-画像-音声トリプレットを生成するために、我々はBLIP[28]を使用して、VGGSoundとSoundNetの動画に対する合成キャプションを生成する。データセット構築の詳細については付録で説明する。

4.2 Training Recipe

概略として、我々はOmniFlowをStable-Diffusion 3のテキストおよび画像モジュールで初期化する(モデル1)。まず、テキストと音声のペアを用いて別個のテキストから音声へのモデルを学習する(モデル2)。次に、モデル1とモデル2を統合し、テキスト、画像、音声モジュールを備えた結合モデルを得る(モデル3)。モデル1とモデル2は別個のテキストモジュールを持つため、統合プロセス中にそれらの重みを平均化する。最後に、セクション3.1で説明した方法を用いて、多様な任意から任意へのタスクでモデル3を微調整する。

我々のモジュラー設計により、各モジュールを個別に初期化および事前学習することができる。これにより、ゼロから学習される以前の統合マルチモーダルモデル(例えばUniDiffuser [4])と比較して、膨大な計算コストを節約できる。我々はグローバルバッチサイズ64を使用し、モデル2とモデル3をそれぞれ100,000ステップと150,000ステップ学習する。さらなる学習および実装の詳細は付録に記載する。

5 Main Results

5.1 Evaluation Metrics

我々は、ペアの生成(テキストから画像、テキストから音声)および、テキストから音声+画像(T\rightarrowI+A)、音声からテキスト+画像(A\rightarrowT+I)などの汎用的な任意から任意への生成について広範な実験を行った。テキストから画像生成については、MSCOCO-30Kベンチマーク[30]においてFID[15]およびCLIP[43]スコアを報告する。公式の実装に従い、CLIP埋め込み間のコサイン類似度を100倍している。また、GenEvalベンチマーク[13]の結果も報告する。音声生成については、AudioCapsにおいてFAD[20]およびCLAP[10]スコアを報告する。結果は16kHzのサンプリングレートで報告される。また、キャプション評価にもCLAPスコアを使用する。

5.2 Text-to-Image Generation

Model Param FID\downarrow CLIP\uparrow
UniDiffuser 0.9B 9.71 30.93
CoDi 4.3B 11.26 30.69
UIO-2XXL 6.8B 13.39 -
SDv1.5 0.9B 11.12 30.63
SDXL* 2.6B 16.49 31.36
SD3-Medium* 2B 20.94 30.65
OmniFlow* 3.4B 13.40 31.54
表1: MSCOCO-30Kベンチマークにおけるテキストから画像への生成。 *は、事前学習データが高品質の画像とキャプションで構成されており、COCOデータセットの分布に従っていないモデルを示す。これはFIDスコアに悪影響を与える可能性がある。
Model Param Images Gen.\uparrow
Text-to-Image Specialist
SD1.5 0.9B 4.0B .43
SDv2.1 0.9B 2.3B .50
SDXL 2.6B 1.6B .55
DALL-E 2 4.2B 2.6B .52
SD3-Medium 2B 1B .62
SD3-Large 8B 2.0B .68
Generalist
CoDi 4.3B 400M* .38
UniDiff. 0.9B 2B .43
OmniFlow 3.4B 30M* .62
Chameleon 7B 3.5B .39
Transfusion 7B 3.5B .63
表2: GenEvalベンチマークにおけるテキストから画像への生成。 モデルサイズ、学習画像数、GenEvalベンチマークスコアを比較している。*はファインチューニングデータセットを示す。CoDiとMMDiT-Oは両方とも事前学習済みのテキストから画像への拡散モデル(SDとSD3)で初期化されている。

我々はMSCOCO-30kの結果を 1に、GenEvalの結果を 2に報告する。MSCOCO-30kにおいて、我々はSDXLやSD3-Mediumなどの最先端モデルよりも低いFIDを達成した。我々のFID数値は、SDv1.5などの以前のモデルよりも高いが、SDXLやSD3などのより最近のモデルは、COCOの画像の分布と一致しない高品質のテキスト-画像ペアで学習されているため、FID数値が高くなる傾向があることに注意すべきである[42]。特筆すべきは、SD3のFIDが20.94であるのに対し、SDv1.5は11.12であるが、人間による評価ではSD3の方が優れたモデルとされていることである。SD3のリリース以前に広く最先端のオープンソースモデルとして認識されていたSDXLも、SDv1.5よりも高いFIDを示している。

CLIPスコアに関しては、OmniFlowは以前のモデルを大幅に上回る性能を示している。特に、汎用モデルであるUniDiffuserやCoDiと比較すると、それぞれ+0.610.61+0.61+ 0.61+0.850.85+0.85+ 0.85の向上を達成し、テキストと画像の整合性が優れていることを示している。テキストから画像への能力をより適切に測定するGenEvalベンチマークでは、OmniFlowは0.62のスコアを達成し、最先端の専門モデルであるSD3-Mediumと比較しても競争力のあるスコアを示している。さらに、OmniFlowは同規模の以前のany-to-anyベースラインと比較して、CoDi(+.24)やUniDiffuser(+.19)を大幅に上回っている。より多くの画像で学習された大規模モデルと比較すると、OmniFlowはChameleon-7Bを上回り、Transfusion-7Bと競争力のある性能を達成している。

特筆すべきは、Chameleon、Transfusion、UniDiffuserが一からの学習を必要とするのに対し、OmniFlowは3000万の学習画像のみで高い性能を達成しており、我々のモジュラー設計の有効性を示している。CoDiの設計も事前学習済みのテキストから画像へのモデルを初期化に利用できるが、OmniFlowよりもかなり多くの画像で学習されているにもかかわらず、性能が劣っている。

5.3 Text-to-Audio Generation

Model Param FAD\downarrow CLAP\uparrow
Text-to-Audio Specialist
AudioGen-L[24] 1B 1.82 -
Make-an-Audio[19] 0.4B 2.66 -
AudioLDM-L[32] 0.7B 1.96 .141
Make-an-Audio 2[18] 0.9B 2.05 .173
AudioLDM 2-Full-L[33] 0.7B 1.86 .182
Generalist
CoDi 3.4B 1.80 .053*
OmniFlow 3.4B 1.75 .183
UIO-2XXL 6.7B 2.64 -
表3: AudioCaps評価セットにおけるテキストから音声への生成。 様々な音声生成器のFADおよびCLAPスコアの比較。*公式チェックポイントから再現、詳細は付録を参照。

我々はAudioCapsにおけるテキストから音声への生成結果を 3に報告する。従来の最先端技術と比較して、OmniFlowはFADとCLAPスコアにおいて強力な性能を達成している。FADにおいてAudioLDM2を上回り(-0.11)、CLAPにおいて同等の性能を達成している(+0.001)。汎用モデルと比較すると、OmniFlowはFAD(-0.05)とCLAP(+.13)の両方の指標においてCoDiを大幅に上回っている。

5.4 Receipes for Audio and Text Diffusions

Audio Gen. Text Gen.
FAD\downarrow CLAP\uparrow
Continuous Flow Matching
eps/linear 2.08 .141
v/cos 2.01 .203
v/linear 1.86 .126
rf/uniform 1.82 .227
rf/lognorm 1.79 .254
Discrete Text Diffusion
SEDD[35] - .180
MDLM[45] - .163
表4: 音声およびテキスト生成のための様々な定式化。 AudioCapsデータセットにおける音声生成のFADとテキスト生成のCLAPスコアを報告する。

我々は、マルチモーダル生成のための音声およびテキスト拡散トランスフォーマーの訓練に関する様々な手法を探索した。これは比較的未開拓の分野である。具体的には、セクション 2.1で言及した5つの定式化を探索した。これらの実験では、音声とテキストモジュールのみを持つモデル(セクション 4.2のモデル2)を使用し、50,000ステップ訓練した。テキストから音声への生成にはFADスコアを、音声からテキストへの生成にはCLAPスコアを報告する。5つの定式化の中で、rf/lognormが最も優れており、最低のFAD(1.79)と最高のCLAPスコア(.254)を示した。我々はまた、最近の文献で連続空間拡散モデルよりも優位性を示したSEDD [35]とMDLM [45]という2つの離散空間拡散モデルも探索した。具体的には、SEDDの吸収状態バージョンを使用した。これらの実験では、テキストVAEエンコーダーをトークン埋め込み層に置き換え、テキストVAEデコーダーをトークンロジットを予測する単純な線形出力層に置き換えた。また、テキスト埋め込みに対するフローマッチング損失を、SEDDとMDLMそれぞれの損失関数に置き換えた。これらは連続的な埋め込みではなく、トークンロジットに対して動作する。音声からテキストへの生成に関するCLAPスコアを報告する。連続的な代替手法に比べて顕著な優位性は見られなかった。

6 Sampling

サンプリングの側面では、我々はガイダンスとタイムステップシフトの効果を探究した。タイムステップシフトは元々SD3によって、異なる解像度の画像のサンプリングプロセスのバランスを取るために導入された。具体的には、推論スケジュールを以下のように拡張する:

t^=γt1+(1γ)t^𝑡𝛾𝑡11𝛾𝑡\hat{t}=\frac{\gamma t}{1+(1-\gamma)t}over^ start_ARG italic_t end_ARG = divide start_ARG italic_γ italic_t end_ARG start_ARG 1 + ( 1 - italic_γ ) italic_t end_ARG (11)

ここで γ=mn𝛾𝑚𝑛\gamma=\sqrt{\frac{m}{n}}italic_γ = square-root start_ARG divide start_ARG italic_m end_ARG start_ARG italic_n end_ARG end_ARGm𝑚mitalic_m は目標サンプル解像度、n𝑛nitalic_n は参照解像度である。音声およびテキスト生成においては、入力音声スペクトログラムとテキスト埋め込みは固定解像度を持つため、解像度の変化という概念は存在しない。しかし、我々は経験的にシフトを適用することで生成品質が向上することを観察した。具体的には、シフト項 γ>1𝛾1\gamma>1italic_γ > 1 を組み込むことで、凹型のスケジュールが生まれ、ノイズ除去プロセスは初めはゆっくりと進行し、終盤に向けて加速する。我々は、これがテキストから音声への生成およびオーディオからテキストへの生成タスクにおいてサンプル品質を向上させることを発見した。

我々はセクション3.2で言及したマルチモーダルガイダンスを採用している。単純な音声からテキストへの生成およびテキストから音声への生成では、我々の定式化は標準的なクラシファイアフリーガイダンスに帰着する。ガイダンスとタイムステップシフトの効果を4に示す。一般的に、我々はshift=3.0が両タスクに対してうまく機能することを発見した。音声生成においては、ガイダンススケール8が最高のパフォーマンスを達成する。テキスト生成においては、ガイダンススケール4が最良の結果を達成する。

Refer to caption
(a) テキストから音声への生成。
Refer to caption
(b) 音声からテキストへの生成。
図4: 音声およびテキスト生成におけるCFGとシフトの効果。我々はテキストから音声へのタスクと音声からテキストへのタスクにおけるガイダンスとタイムステップシフトの影響を評価する。

3.2におけるマルチモーダルガイダンスの効果を探るため、我々は音声+画像からテキストへの変換(A+I\rightarrowT)タスクについて定性的な結果を提示する。ここで、x1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPTは画像、テキスト、音声のモダリティを表すことを思い出されたい。このタスクにおけるマルチモーダルガイダンスは、α21subscript𝛼21\alpha_{21}italic_α start_POSTSUBSCRIPT 21 end_POSTSUBSCRIPTα23subscript𝛼23\alpha_{23}italic_α start_POSTSUBSCRIPT 23 end_POSTSUBSCRIPTによって制御することができる。ここで、α21subscript𝛼21\alpha_{21}italic_α start_POSTSUBSCRIPT 21 end_POSTSUBSCRIPTはテキストと画像の整合性を、α23subscript𝛼23\alpha_{23}italic_α start_POSTSUBSCRIPT 23 end_POSTSUBSCRIPTはテキストと音声の整合性を制御する。簡略化のため、α21subscript𝛼21\alpha_{21}italic_α start_POSTSUBSCRIPT 21 end_POSTSUBSCRIPTαimsubscript𝛼im\alpha_{\text{im}}italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPTα23subscript𝛼23\alpha_{23}italic_α start_POSTSUBSCRIPT 23 end_POSTSUBSCRIPTαausubscript𝛼au\alpha_{\text{au}}italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPTと表記する。我々はαimsubscript𝛼im\alpha_{\text{im}}italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPTαausubscript𝛼au\alpha_{\text{au}}italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPT[1.0,2.0]1.02.0[1.0,2.0][ 1.0 , 2.0 ]の範囲で変化させ、αim+αau=3.0subscript𝛼imsubscript𝛼au3.0\alpha_{\text{im}}+\alpha_{\text{au}}=3.0italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPT + italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPT = 3.0となるようにした。結果を5に示す。定性的には、αausubscript𝛼au\alpha_{\text{au}}italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPTが高いほどモデルの出力は音声キャプションに似たものになり、αimsubscript𝛼im\alpha_{\text{im}}italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPTが高いほど画像キャプションに似たものになる。興味深いことに、これは訓練データにおける音声キャプションと画像キャプションのスタイルの微妙な違い(例えば、最初の文字が大文字かどうか)も反映していることが観察された。これら2つのパラメータを変化させることで、ユーザーは生成の柔軟な制御を達成できる。

Refer to caption
図5: マルチモーダルガイダンスの効果。この例では、ユーザーはαausubscript𝛼au\alpha_{\text{au}}italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPTαimsubscript𝛼im\alpha_{\text{im}}italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPTを変化させることで、出力テキストと入力画像、音声との整合性を独立して柔軟に制御できる。αimsubscript𝛼im\alpha_{\text{im}}italic_α start_POSTSUBSCRIPT im end_POSTSUBSCRIPTが高いほど、出力テキストは画像キャプションに似たものになり、lined updriving downなどの視覚的な描写が含まれる。αausubscript𝛼au\alpha_{\text{au}}italic_α start_POSTSUBSCRIPT au end_POSTSUBSCRIPTが高いほど、出力テキストは音声キャプションに似たものになり、acceleratingrevvingなどの描写が含まれる。
Refer to caption
図6: テキストから画像生成におけるベースラインとの定性的比較。OmniFlowは、以前の汎用モデルと比較して、画像品質とプロンプトの整合性において優れた結果を達成している。

6.1 Qualitative Comparison

我々は、OmniFlowを最近の2つのany-to-any生成手法であるCoDi [46]とUniDiffuser [4]と直接比較する。定量的結果に加えて、 6にテキストから画像への比較の定性的結果を示す。これらの例は、OmniFlowが以前のany-to-anyモデルと比較して生成品質を大幅に改善していることを示している。具体的には、最初の例(上部)において、我々のモデルは高い美的品質を維持しながらプロンプトに忠実に従い、猫の特徴とその鏡像反射の両方を正確に捉えている。対照的に、CoDiは猫の目を変更することができず、UniDiffuserは猫が鏡を見ている様子を描写できていない。同様の傾向が3番目の例でも見られる:OmniFlowは縄に結ばれた提灯を正しく配置しているが、UniDiffuserは提灯を川の上に配置している。最後に、灯台の例では、CoDiはカモメを取り入れることができず、UniDiffuserは「穏やか」という形容詞を無視し、代わりに荒々しい波と焦点の合っていない灯台のある画像を生成している。

我々の結果は、OmniFlowが画像とテキストの整合性および画像の忠実度の両面において、以前のany-to-anyモデルと比較してはるかに高い生成品質を達成していることを示している。

7 Conclusion

我々は、あらゆる種類の生成タスクに対応する統一された早期融合マルチモーダル生成モデルであるOmniFlowを提案する。OmniFlowは、個々のコンポーネントを別々に事前学習できるモジュラー設計を採用しつつ、共同注意メカニズムを通じて異なるモダリティの特徴が直接相互作用することを可能にしている。我々は、OmniFlowがテキストから画像生成、テキストから音声生成を含む幅広い困難な生成タスクにおいて、従来のあらゆる種類の生成モデルを上回る性能を示すことを、広範な実験を通じて実証した。本稿では、付録においてOmniFlowの限界についてさらなる分析を提供している。

References

  • Alexey [2020] Dosovitskiy Alexey. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929, 2020.
  • Aytar et al. [2016] Yusuf Aytar, Carl Vondrick, and Antonio Torralba. Soundnet: Learning sound representations from unlabeled video. Advances in neural information processing systems, 29, 2016.
  • BAI et al. [2024] JISHENG BAI, Haohe Liu, Mou Wang, Dongyuan Shi, Wenwu Wang, Mark D Plumbley, Woon-Seng Gan, and Jianfeng Chen. Audiosetcaps: Enriched audio captioning dataset generation using large audio language models. In Audio Imagination: NeurIPS 2024 Workshop AI-Driven Speech, Music, and Sound Generation, 2024.
  • Bao et al. [2023] Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, and Jun Zhu. One transformer fits all distributions in multi-modal diffusion at scale. In International Conference on Machine Learning, pages 1692–1717. PMLR, 2023.
  • Byeon et al. [2022] Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022.
  • Changpinyo et al. [2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12M: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In CVPR, 2021.
  • Chen et al. [2020] Honglie Chen, Weidi Xie, Andrea Vedaldi, and Andrew Zisserman. Vggsound: A large-scale audio-visual dataset. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 721–725. IEEE, 2020.
  • Chen et al. [2024] Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, and Xie Chen. Slam-aac: Enhancing audio captioning with paraphrasing augmentation and clap-refine through llms. arXiv preprint arXiv:2410.09503, 2024.
  • Chung et al. [2024] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. Journal of Machine Learning Research, 25(70):1–53, 2024.
  • Elizalde et al. [2023] Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, and Huaming Wang. Clap learning audio concepts from natural language supervision. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1–5. IEEE, 2023.
  • Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
  • Gemmeke et al. [2017] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled dataset for audio events. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), pages 776–780. IEEE, 2017.
  • Ghosh et al. [2024] Dhruba Ghosh, Hannaneh Hajishirzi, and Ludwig Schmidt. Geneval: An object-focused framework for evaluating text-to-image alignment. Advances in Neural Information Processing Systems, 36, 2024.
  • Hate [2024] Jacky Hate. Text-to-image-2m dataset, 2024. Accessed: 2024-11-14.
  • Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Ho et al. [2022] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022.
  • Huang et al. [2023a] Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye, Chen Zhang, Jinglin Liu, Xiang Yin, Zejun Ma, and Zhou Zhao. Make-an-audio 2: Temporal-enhanced text-to-audio generation. arXiv preprint arXiv:2305.18474, 2023a.
  • Huang et al. [2023b] Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, and Zhou Zhao. Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models. In International Conference on Machine Learning, pages 13916–13932. PMLR, 2023b.
  • Kilgour et al. [2018] Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, and Matthew Sharifi. Fr\\\backslash\’echet audio distance: A metric for evaluating music enhancement algorithms. arXiv preprint arXiv:1812.08466, 2018.
  • Kim et al. [2019] Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, and Gunhee Kim. Audiocaps: Generating captions for audios in the wild. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 119–132, 2019.
  • Kingma and Gao [2024] Diederik Kingma and Ruiqi Gao. Understanding diffusion objectives as the elbo with simple data augmentation. Advances in Neural Information Processing Systems, 36, 2024.
  • Klein et al. [2024] Leon Klein, Andreas Krämer, and Frank Noé. Equivariant flow matching. Advances in Neural Information Processing Systems, 36, 2024.
  • Kreuk et al. [2022] Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, and Yossi Adi. Audiogen: Textually guided audio generation. arXiv preprint arXiv:2209.15352, 2022.
  • LAION [2023a] LAION. Aesthetics for open source, 2023a. Accessed: 2024-11-14.
  • LAION [2023b] LAION. Laion coco: 600m synthetic captions from laion2b-en, 2023b. Accessed: 2024-11-14.
  • Li et al. [2020] Chunyuan Li, Xiang Gao, Yuan Li, Baolin Peng, Xiujun Li, Yizhe Zhang, and Jianfeng Gao. Optimus: Organizing sentences via pre-trained modeling of a latent space. arXiv preprint arXiv:2004.04092, 2020.
  • Li et al. [2022] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning, pages 12888–12900. PMLR, 2022.
  • Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023.
  • Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
  • Lipman et al. [2022] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. arXiv preprint arXiv:2210.02747, 2022.
  • Liu et al. [2023] Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D Plumbley. Audioldm: Text-to-audio generation with latent diffusion models. arXiv preprint arXiv:2301.12503, 2023.
  • Liu et al. [2024] Haohe Liu, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Qiao Tian, Yuping Wang, Wenwu Wang, Yuxuan Wang, and Mark D Plumbley. Audioldm 2: Learning holistic audio generation with self-supervised pretraining. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
  • Liu et al. [2022] Xingchao Liu, Chengyue Gong, and Qiang Liu. Flow straight and fast: Learning to generate and transfer data with rectified flow. arXiv preprint arXiv:2209.03003, 2022.
  • Lou et al. [2024] Aaron Lou, Chenlin Meng, and Stefano Ermon. Discrete diffusion modeling by estimating the ratios of the data distribution. In Forty-first International Conference on Machine Learning, 2024.
  • Lu et al. [2024] Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, and Aniruddha Kembhavi. Unified-io 2: Scaling autoregressive multimodal models with vision language audio and action. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26439–26455, 2024.
  • Mei et al. [2024] Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, Mark D Plumbley, Yuexian Zou, and Wenwu Wang. Wavcaps: A chatgpt-assisted weakly-labelled audio captioning dataset for audio-language multimodal research. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
  • MidJourney AI [2024] MidJourney AI. Image generated using midjourney ai, 2024. Accessed on November 21, 2024. URL: https://www.midjourney.com/.
  • Nichol and Dhariwal [2021] Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International conference on machine learning, pages 8162–8171. PMLR, 2021.
  • OpenAI [2023] OpenAI. Dall-e 3, 2023.
  • Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
  • Sahoo et al. [2024] Subham Sekhar Sahoo, Marianne Arriola, Aaron Gokaslan, Edgar Mariano Marroquin, Alexander M Rush, Yair Schiff, Justin T Chiu, and Volodymyr Kuleshov. Simple and effective masked diffusion language models. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
  • Tang et al. [2024] Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, and Mohit Bansal. Any-to-any generation via composable diffusion. Advances in Neural Information Processing Systems, 36, 2024.
  • Team [2024] Chameleon Team. Chameleon: Mixed-modal early-fusion foundation models. arXiv preprint arXiv:2405.09818, 2024.
  • Tong et al. [2023] Alexander Tong, Nikolay Malkin, Guillaume Huguet, Yanlei Zhang, Jarrid Rector-Brooks, Kilian Fatras, Guy Wolf, and Yoshua Bengio. Conditional flow matching: Simulation-free dynamic optimal transport. arXiv preprint arXiv:2302.00482, 2(3), 2023.
  • Vedantam et al. [2015] Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4566–4575, 2015.
  • Yu et al. [2021] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan. arXiv preprint arXiv:2110.04627, 2021.
  • Zhang et al. [2024] Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, and Wei Lu. Tinyllama: An open-source small language model. arXiv preprint arXiv:2401.02385, 2024.
  • Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv preprint arXiv:2408.11039, 2024.
  • Zhu et al. [2023] Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, WANG HongFa, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, et al. Languagebind: Extending video-language pretraining to n-modality by language-based semantic alignment. In The Twelfth International Conference on Learning Representations, 2023.

Appendix A Implementation Details

A.1 Dataset

Size Modality
LAION-Aesthetics-3M 2M* T,I
CC12M 12M T,I
COYO-700M(Subset) 5M T,I
LAION-COCO 7M T,I
SoundNet 2M T,A,I{\dagger}
VGGSound 0.2M T,A,I{\dagger}
T2I-2M 2M T,I
AudioSet 2M T,A
AudioCaps 46K T,A
WavCaps 0.4M T,A
表5: トレーニングに使用したすべてのデータセットのリスト。*一部の画像URLにはもうアクセスできない。{\dagger} 我々はBLIPを使用して合成キャプションを生成する。

5に、トレーニングプロセスで使用したすべてのデータセットのサイズを示す。我々は、最短辺が256未満のすべての画像をフィルタリングした。すべてのモダリティ(画像、音声、テキスト)を持つデータを取得するために、我々はBLIPを使用して、動画から抽出されたSoundNet[2]およびVGGSound[7]データセットの画像に対して合成キャプションを生成した。AudioSetにはクラスラベルのみが付属しているため、我々はAudioSetCaps[3]が提供する音声-言語モデルによって生成された合成キャプションを使用した。

A.2 Schedules

Refer to caption
図7: 異なる任意対任意生成タスクをエンコードするパス。(t1,t2,t3)subscript𝑡1subscript𝑡2subscript𝑡3(t_{1},t_{2},t_{3})( italic_t start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_t start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )は画像、テキスト、音声モダリティの「ノイズレベル」を表す。(0,0,0)000(0,0,0)( 0 , 0 , 0 )はクリーンな(画像、テキスト、音声)の三つ組を表し、(1,1,1)111(1,1,1)( 1 , 1 , 1 )は純粋なガウシアンノイズを表す。

セクション3で述べたように、我々は[0,1]3superscript013[0,1]^{3}[ 0 , 1 ] start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT内の異なるパスで異なるタスクを表現できることを思い出してほしい。これを 7に視覚化する。我々は、任意対任意生成タスクに対して単純な線形タスクを採用した。これにより、テキストから画像やテキストから音声といった単純なケースでは、我々の定式化が標準的な整流フローと一致する。

A.3 Training Pipeline

我々はSD3(モデル1)でモデルを初期化する。まず、テキストと音声のペアでモデルを訓練し、モデル2を得る。モデル2のテキストブランチはSD3の重みで初期化され、音声ブランチはランダムに初期化される。訓練後、テキストブランチと画像ブランチを含むモデル1と、テキストブランチと音声ブランチを含むモデル2を、テキスト、画像、音声ブランチを含むモデル3に統合する。モデル3のテキストブランチは、モデル1と2のテキストブランチの重みを平均化して得られる。最後に、セクション A.1で言及したすべてのデータセットでモデル3を訓練する。この訓練パイプラインを 8に示す。

我々はモデル2を100,000ステップ、モデル3を150,000ステップ訓練する。8台のA6000 GPUを使用し、GPU1台あたりのバッチサイズは8である。AdamWオプティマイザーを使用し、モデル2の学習率は1e-5、モデル3の学習率は5e-6である。学習率は最初の1,000ステップで線形ウォームアップを行い、残りの訓練期間中にコサイン減衰する。指数移動平均(EMA)を採用し、100訓練ステップごとに減衰係数0.999で更新される。

Refer to caption
図8: OmniFlowの訓練パイプライン。 我々はSD3(モデル1)でモデルを初期化する。次に、テキストと音声のペアでモデルを訓練し、モデル2を得る。モデル1とモデル2を統合してモデル3を得る。最終モデルは、モデル3をあらゆる入力からあらゆる出力への生成タスクでさらに訓練することで得られる。
Refer to caption
図9: OmniFlowにおけるテキストVAEとテキストエンコーダーのアーキテクチャ。 SD3(上)は3つのテキストエンコーダー:CLIP-L、CLIP-G、T5-XXLを使用する。OmniFlow(中)は4.7BのT5-XXLをFlan-T5-Lに基づくVAEエンコーダーに置き換える。CLIPエンコーダーはオプションとなり、クリーンなテキスト入力のないタスクでは使用されない。VAE(下)のデコーダーはTinyLlama-1.1Bに基づいている。VAE埋め込みはデコーディングの接頭辞として使用される。

A.4 Text VAE

我々はFlan-T5-Lを使用してキャプションデータにテキストVAEを訓練する[9]。SD3[11]は3つのテキストエンコーダー(CLIP-L、CLIP-G、T5-XXL)を使用していることを思い出されたい。我々は計算コストを削減するために4.7BのT5-XXLをFlan-T5-L[27]に置き換え、テキストVAEの一部として使用する。具体的には、長さL𝐿Litalic_Lの入力キャプションが与えられると、まずFlan-T5-LによってサイズL×1024𝐿1024L\times 1024italic_L × 1024のベクトルにエンコードされる。次に、それをQFormer[29]に渡し、サイズ32×64326432\times 6432 × 64の出力ベクトルを得る。このベクトルがVAE埋め込みとして使用される。デコーディングプロセスでは、VAE埋め込みはまず線形射影層によってサイズ32×204832204832\times 204832 × 2048のベクトルに処理される。これがTinyLlama-1.1Bデコーダー[51]のプレフィックス埋め込みとして使用される。これらのアーキテクチャ設計を 9に示す。1.1Bのテキストデコーダーを導入したが、4.7BのT5-XXLを783MのFlan-T5-Lに置き換えたため、システム全体のパラメータ数は実際には少なくなっていることに注意されたい。

我々はOPTIMUSの自己エンコーディング訓練目的を採用する[27]。Flan-T5-Lエンコーダーを固定し、QFormerとTinyLlamaデコーダーをエンドツーエンドで微調整する。セクション A.1で言及したすべてのキャプションデータでテキストVAEを2エポック訓練する。学習率は1e-5、グローバルバッチサイズは256で、AdamWオプティマイザーを使用する。

OmniFlowのテキストエンコーダーとしてVAEエンコーダーを使用する際、SD3の入力次元を維持するために埋め込みを0で4096にパディングする。さらに、訓練を安定させるために、SD3のCLIP-LとCLIP-Gエンコーダーも補助的なテキストエンコーダーとして組み込む。訓練中、これらのエンコーダーにランダムドロップアウトを適用する。推論時、入力にクリーンなテキストが含まれていない場合(例:画像からテキストへのタスク)、CLIPエンコーダーは使用されない。

A.5 Audio VAE

我々は、AudioLDMで使用されているオーディオVAEを直接適用している [32]

A.6 Omni-Transformer

我々は、画像およびテキストモジュールについてSD3のアーキテクチャ設計に従い、SD3の重みで初期化している。オーディオモジュールは画像モジュールと同一のセットアップで初期化されている。具体的には、24層で隠れ層のサイズは1536である。位置埋め込み層のパッチサイズは2である。オーディオVAEは 256×1625616256\times 16256 × 16 次元の特徴マップを出力するため、位置埋め込み層は各オーディオを長さ 128×8=102412881024128\times 8=1024128 × 8 = 1024 のシーケンスに変換する。

A.7 Pooled Conditional Embeddings

SD3は、シーケンス埋め込みに加えて、CLIP-ViT-L/14およびCLIP-ViT-G/14からの追加のプールされた埋め込みを使用している。我々はこれらをそのまま維持し、訓練中に追加のドロップアウトを適用している。さらに、オーディオ入力用のプールされた埋め込みを作成するためにオーディオエンコーダーを組み込んでいる [53]。これらの埋め込みは、それぞれのモダリティのクリーンなデータが利用できない場合には使用されない。

A.8 Baselines

本節では、 4で検討された具体的な変種について説明する。離散テキスト拡散(SEDDとMDLM)を除き、これらの変種は 3の統一された定式化にパラメータを変えることで適合する。

linearはLDMで使用されるDDPMの変種である[44]。タイムステップを0,1T101𝑇10,1...T-10 , 1 … italic_T - 1に離散化し、bt=1αt2subscript𝑏𝑡1superscriptsubscript𝛼𝑡2b_{t}=\sqrt{1-\alpha_{t}^{2}}italic_b start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG 1 - italic_α start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARGという定式化を用いる。ここで、at=i=0t(1βi)subscript𝑎𝑡superscriptsubscriptproduct𝑖0𝑡1subscript𝛽𝑖a_{t}=\sqrt{\prod_{i=0}^{t}(1-\beta_{i})}italic_a start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = square-root start_ARG ∏ start_POSTSUBSCRIPT italic_i = 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_t end_POSTSUPERSCRIPT ( 1 - italic_β start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) end_ARG、そしてβt=(β0+tT1(βT1β0))2subscript𝛽𝑡superscriptsubscript𝛽0𝑡𝑇1subscript𝛽𝑇1subscript𝛽02\beta_{t}=(\sqrt{\beta_{0}}+\frac{t}{T-1}(\sqrt{\beta_{T-1}}-\sqrt{\beta_{0}})% )^{2}italic_β start_POSTSUBSCRIPT italic_t end_POSTSUBSCRIPT = ( square-root start_ARG italic_β start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_ARG + divide start_ARG italic_t end_ARG start_ARG italic_T - 1 end_ARG ( square-root start_ARG italic_β start_POSTSUBSCRIPT italic_T - 1 end_POSTSUBSCRIPT end_ARG - square-root start_ARG italic_β start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_ARG ) ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTである。我々は、この変種に対してϵitalic-ϵ\epsilonitalic_ϵ予測とv𝑣vitalic_vであり、v𝑣vitalic_v予測目的関数に対して用いられる[17]

SEDD及びMDLMは最近提案された離散テキスト拡散モデルである。我々の実験では、MDLM[45]とSEDDの吸収状態変種[35]を考慮する。111SEDDには一様変種もあり、そこではトークンは"[MASK]"トークンではなく、語彙からランダムにサンプリングされたトークンに置き換えられる。これらのモデルは離散トークン空間で直接前方過程を定義し、クリーンなテキストトークンが徐々に特殊な"[MASK]"トークンに置き換えられる。我々は、これらの手法に対して、テキストVAEを除去しトークン埋め込み層を導入することで実装を適応させた。この設計は 10に示されている。

Refer to caption
図10: OmniFlowの離散拡散変種。このセットアップでは、テキストVAEを除去し、トークン埋め込みを直接Omni-Transformer層に渡す。"[m]"はマスクトークンを示す。

Appendix B Additional Discussions

B.1 Sampling

OmniFlowは2つのモダリティの周辺分布を直接モデル化しない。例えば、3つのモダリティ (x1,x2,x3)subscript𝑥1subscript𝑥2subscript𝑥3(x_{1},x_{2},x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT ) が与えられた場合、p(x10|x20)=x31d3p(x10,x31|x20)𝑑A𝑝conditionalsuperscriptsubscript𝑥10superscriptsubscript𝑥20subscriptsuperscriptsubscript𝑥31superscriptsubscript𝑑3𝑝superscriptsubscript𝑥10conditionalsuperscriptsubscript𝑥31superscriptsubscript𝑥20differential-d𝐴p(x_{1}^{0}|x_{2}^{0})=\int_{x_{3}^{1}\in\mathcal{\mathbb{R}}^{d_{3}}}p(x_{1}^% {0},x_{3}^{1}|x_{2}^{0})dAitalic_p ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT | italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) = ∫ start_POSTSUBSCRIPT italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_d start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_POSTSUBSCRIPT italic_p ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT | italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) italic_d italic_A を直接モデル化しない。ここで、d3subscript𝑑3d_{3}italic_d start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPTx31superscriptsubscript𝑥31x_{3}^{1}italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT の次元である。x31superscriptsubscript𝑥31x_{3}^{1}italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT について積分することは不可能である。代わりに、我々は以下のようにしてサンプリングを行う。まず p(x10,x31|x20)𝑝superscriptsubscript𝑥10conditionalsuperscriptsubscript𝑥31superscriptsubscript𝑥20p(x_{1}^{0},x_{3}^{1}|x_{2}^{0})italic_p ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT | italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) をサンプリングし、次に x31q(x31|x20)=𝒩(0,I)similar-tosuperscriptsubscript𝑥31𝑞conditionalsuperscriptsubscript𝑥31superscriptsubscript𝑥20𝒩0𝐼x_{3}^{1}\sim q(x_{3}^{1}|x_{2}^{0})=\mathcal{N}(0,I)italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT ∼ italic_q ( italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT | italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) = caligraphic_N ( 0 , italic_I ) をサンプリングする。そして p(x10|x31,x20)𝑝conditionalsuperscriptsubscript𝑥10superscriptsubscript𝑥31superscriptsubscript𝑥20p(x_{1}^{0}|x_{3}^{1},x_{2}^{0})italic_p ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT | italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 0 end_POSTSUPERSCRIPT ) を(1,0,1)から(0,0,1)へのパスを使用してサンプリングする。

B.2 Necessity of text, image, audio triplets.

複数の入力モダリティの埋め込みの重み付き平均を使用するCoDi[46]のような以前の研究と比較して、OmniFlowはすべてのモダリティ(画像、テキスト、音声)で構成される三つ組を直接訓練する必要がある。この要件の必要性を研究するために、我々は3つのモダリティ(x1,x2,x3)subscript𝑥1subscript𝑥2subscript𝑥3(x_{1},x_{2},x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )に関する合成的なおもちゃの例を実施した。各モダリティは1次元ベクトルで表現される。3つのモダリティの三つ組は、3次元空間の点(X,Y,Z)𝑋𝑌𝑍(X,Y,Z)( italic_X , italic_Y , italic_Z )で表現できる。この実験を 11に示す。我々は、真のデータ分布が四面体に隣接する小さな近傍で一様分布に従うと仮定する(最左図)。我々は、三つ組(x1,x2,x3)subscript𝑥1subscript𝑥2subscript𝑥3(x_{1},x_{2},x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )(左から2番目の図)、(x1,x2)subscript𝑥1subscript𝑥2(x_{1},x_{2})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT )(x1,x3)subscript𝑥1subscript𝑥3(x_{1},x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )(x2,x3)subscript𝑥2subscript𝑥3(x_{2},x_{3})( italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )のペア(右から2番目の図)、および個々のモダリティ(x1),(x2),(x3)subscript𝑥1subscript𝑥2subscript𝑥3(x_{1}),(x_{2}),(x_{3})( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) , ( italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) , ( italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT )(最右図)のみで8層MLPを訓練する実験を行った。各モデルについて、モデルによって生成された50,000サンプルをプロットした。定性的に、三つ組で訓練されたモデルがデータ分布を最もよく表現している。これは理にかなっている。なぜなら、ペアは本質的にXY、XZ、YZ平面への投影であり、個々のモダリティはX、Y、Z軸への投影だからである。これらの投影は、この3次元空間で表現される元の分布を復元するには不十分である。

Refer to caption
図11: 3つの1次元モダリティに関する合成実験。我々は、3つのおもちゃのモダリティ(x1,x2,x3subscript𝑥1subscript𝑥2subscript𝑥3x_{1},x_{2},x_{3}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT)の結合分布を考える。各モダリティは1次元のベクトルで表現される。したがって、3つのモダリティで構成される三つ組は3superscript3\mathbb{R}^{3}blackboard_R start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPTの点で表現できる。我々は、結合分布が四面体の近傍で一様分布であると仮定する(左)。我々は、三つ組、ペア、および個々のモダリティのみを使用してOmniFlowを訓練する実験を行った。3つのモダリティの三つ組で訓練されたモデルが元の分布を最もよく表現している。

Appendix C Quantative Text Evaluation

AudioCaps COCO-Karpathy
Images Parms. CLAP\uparrow CIDEr\uparrow CLIP\uparrow CIDEr\uparrow
Specialist
BLIP-2[29] 129M 2.7B - - - 145.8 \ddagger
SLAM-AAC[8] - 7B - 84.1\ddagger - -
Generalist
OmniFlow 30M 3.4B 0.254 48.0 26.8 47.3
CoDi {\dagger} 400M 4.3B 0.206 7.9 25.9 17.2
Unidiffuser {\dagger} 2B 0.9B - - 29.3 20.5
UIO2-XXL 1B* 6.8B - 48.9 - 125.4*
Transfusion 3.5B 7B - - - 35.2
表6: AudioCapsとCOCO CaptionsにおけるX-to-Textの性能比較。 * UIO2の訓練データにはCOCOが含まれる。ファインチューニングデータセットには、14の画像キャプション生成データセットを含む53Mの画像理解データも含まれる。{\dagger}は公式チェックポイントで評価。\ddaggerはそれぞれのデータセット(COCOとAudiocaps)でファインチューニングされている。

我々は、COCO-Karpathy-Testデータセットにおける画像キャプション生成とAudiocapsデータセットにおける音声キャプション生成の定量的結果を報告する。これら2つのベンチマークにおいて、CLIPスコア、CLAPスコア、およびCIDEr[49]を報告する。我々は、CoDiやUni-Diffuserなどの汎用モデルと比較する。Uni-Diffuserは、v0とv1の2つのチェックポイントをリリースしており、v1は内部データでファインチューニングされている。公平性を期すため、我々はv0と比較する。OmniFlowは両タスクでCoDiを上回り、CIDErスコアではUniDiffuserを上回っている(+26.8)。CLIPスコアは若干低い(-2.5)。OmniFlowがUniDiffuserよりも大幅に少ないデータで訓練され、音声キャプション生成タスクも実行できることを考慮すると、OmniFlowの性能は競争力があると考えられる。汎用モデルの性能は、それぞれのデータセットでファインチューニングされた専門モデルに比べて大きく遅れをとっており、さらなる改善の余地があることを示唆している。我々は制限事項のセクションでさらなる議論を提供する。

Appendix D Additional Qualitative Results

D.1 Text-to-Image

14はOmniFlowのテキストから画像への変換の多様な定性的例を示している。我々のアプローチの堅牢性を示すために、様々な人物、シーン、物体を描写している。

D.2 Image-to-Text

我々は、OmniFlow、CoDi [46]、UniDiffuser [4]の画像からテキストへの変換を、Midjourney Exploreページ [38]の合成高品質画像を使用して、 12で並べて比較している。

Refer to caption
図12: 画像からテキストへの生成におけるOmniFlowとベースラインの定性的比較。画像はMidjourney Exploreページ[38]から提供されている。

D.3 Audio-to-Text

7では、Audiocapsの音声からテキストへの変換タスクにおける定性的結果を示している。OmniFlowは正解と一致するキャプションを生成することができる。CoDiは「車」「鳥」「羊」「コンピュータ」などの音声中の主要な物体を正確に把握できるが、シーンを正確に反映したキャプションの生成に苦戦している。

D.4 Text-VAE AutoEncoding

8に、テキストVAEの再構成例を示す。再構成は主に正解のセマンティクスを維持しているが、若干の差異がある。例えば、「well-furnished」が「well-decorated」に変更されるなどである。

ID CoDi OmniFlow GT
yVjivgsU2aA Four car driver trying forcoming for a speeding car. A race car engine revs and tires squeal. An engine running followed by the engine revving and tires screeching.
8F-ndyrEWJ8 Fire police cars stop and red traffic on different highway. A fire siren goes off loudly as a man shouts and a low hum of an engine is running throughout the whole time. A distant police siren, then racing car engine noise, and a man calling in police code over his radio.
350OCezayrk Four motor car driving for completing an automobile service. A vehicle engine is revving and idling. A motor vehicle engine starter grinds, and a mid-size engine starts up and idles smoothly.
LCwSUVuTyvg Door, a blue hat and winter jacket. A door is being slammed. Glass doors slamming and sliding shut.
7XUt6sQS7nM The sheep of the woman are the sheep of the sheep. Multiple sheep bleat nearby. A sheep is bleating and a crowd is murmuring.
PVvi2SDOjVc Car going for a car coming home. Three cars coming for a blue car coming down a road after the highway. A car horn beeps. A car engine idles and then the horn blows.
Z_smJ66Tb3c Men in the bird while the man in the boat. Two men talk over blowing wind and bird chirps. A man is speaking with bird sounds in the background followed by a whistling sound.
CMNlIW6Lkwc Two men in the fire and two men are coming towards the other man in the game. A man speaks, followed by a loud bang and people laughing. A man talking as a camera muffles followed by a loud explosion then a group of people laughing and talking.
JQz40TkjymY Writing computers for people in writing. Typing on a computer keyboard. Typing on a computer keyboard.
U90e2P9jy30 A man shouts the word to the person on the sidewalk to walk to get him to the door the hand to fall down on the sidewalk in. Basketballs being dribbled and people talking. Several basketballs bouncing and shoes squeaking on a hardwood surface as a man yells in the distance.
5I8lmN8rwDM Stationary fire drill technician drilling down a hose pipe while wearing safety gear. Railroad safety drill for motorcycle with hose or oil checking equipment. A drill runs continuously. Drilling noise loud and continues.
NlKlRKz8OKI Birds on blue birds. A woman talks and then an animal chewing. A woman speaks with flapping wings and chirping birds.
表7: AudiocapsのオーディオキャプショニングタスクにおけるCoDiとOmniFlowの定性的比較。オーディオはランダムにサンプリングされている。Audiocapsはオーディオごとに5つの正解キャプションを提供している。より良い表示のため、本表では1つのみを掲載している。
Reconstruction GT
Crispy chicken tenders alongside a portion of a bbq sauce. Crispy chicken tenders alongside a portion of bbq sauce.
A well-furnished living room with a patterned curtain rod, a small white side table holding a vase of flowers, and a tufted gray sofa. A well-decorated living room with a patterned curtain panel hanging from the window, a small white side table holding a vase of flowers, and a tufted gray sofa.
A young man wearing a black shirt and holding an American flag. A young man wearing a black shirt and holding an American flag.
An artistic painting of a futuristic city by the water. An artistic painting of a futuristic city by the water.
Cozy and well-designed living room with a green velvet sofa, glass coffee table displaying potted plants, and a large skylight overhead. Cozy and stylish living room with a green velvet sofa, glass coffee table displaying potted plants, and a large skylight overhead.
A silver Audi Rs4 sedan driving on the passenger side near a mountainous coastline. A silver Acura RLX sedan driving on the passenger side near a mountainous coastline.
表8: テキストVAEの再構成結果。再構成結果(左)と正解テキスト(右)を示す。再構成は主に正解のセマンティクスを維持しているが、若干の差異がある。

Appendix E Limitations

テキスト生成タスクにおいて、我々のモデルの性能は最先端ではなく、改善の余地が大きい。これは、MSCOCOなどの標準的なベンチマークデータセットの分布とは異なる、多くのノイズの多いテキスト(例:代替テキスト、人間が書いたプロンプト)を含む大規模データを取り入れた副作用であると我々は考えている。さらに、特に画像からテキストへのタスクについては、OmniFlowは訓練中にCoDi(4億)やUniDiffuser(20億)などの以前の汎用モデルと比較して、かなり少ない画像-テキストペア(3000万)にしか触れていない。また、異なる品質のキャプションデータセットのバランスをとる問題もある。例えば、WavCapsは弱ラベル付けデータセットであるが、高品質のAudioCapsの10倍の規模がある。AudioCapsベンチマークで高スコアを達成できるキャプションを生成するには、追加の考慮が必要である。これらの限界にもかかわらず、我々はOmniFlowが定量的および定性的実験を通じて、合理的な画像および音声キャプションを生成できることを示している。本稿は、任意の入力から任意の出力への汎用モデルの効果的なレシピの開発に焦点を当てている。テキスト生成の最適化は今後の研究に委ねる。

画像生成タスクにおいて、OmniFlowは高品質の画像を生成できるが、他のテキストから画像へのモデルと同様の限界がある。例えば、訓練データセットから意図しないバイアスを継承する可能性がある。また、通常のSD3モデルが苦戦するプロンプトに対しても同様に苦戦する可能性がある。

Appendix F Miscellaneous

F.1 Reproducibility of CoDi

CoDiの結果を正確に再現するために[46]、我々はi-Code-V3 GitHubリポジトリに示されている重みと指示に従った222https://github.com/microsoft/i-Code/tree/main/i-Code-V3。しかし、他者によって報告されている未解決のオープンイシューと同様に、我々も再現性の問題に直面した333https://github.com/microsoft/i-Code/issues/134

Appendix G Reproducibility Statement

本稿で使用したすべてのデータセットは、我々が生成したSoundNetとVGGSoundの合成キャプションを除き、インターネットから公開されており、アクセス可能である。我々は、これら2つのデータセットに関するコード、チェックポイント、および生成されたキャプションを公開する予定である。

Appendix H Failure Cases

13において、我々はOmniFlowのテキストから画像生成を行う際の複数の失敗事例を提示する。スノーグローブの例では、モデルは「雪の代わりに渦巻く火の粉」という指示を正しく解釈できず、誤って雪を生成してしまっている。ダンサーの例では、「動きによってぼやけた動作」というプロンプトが不適切に追加の腕として表現されている問題が生じている。最後に、鯉の池とラーメンの例は不自然な出力を示しており、前者は池に魚を不自然に編集した画像のように見え、後者は通りに不自然に配置された過大サイズの麺鉢を描写している。

Refer to caption
図13: OmniFlowのテキストから画像生成プロセスにおいて遭遇した失敗事例の例。
Refer to caption
図14: OmniFlowのテキストから画像生成能力の定性的な例。