Abstract
我々は、テキストから画像、テキストから音声、音声から画像の合成など、あらゆる種類の生成タスクに対応する新しい生成モデルOmniFlowを紹介する。OmniFlowは、テキストから画像への変換モデルで使用される整流フロー(RF)フレームワークを発展させ、複数のモダリティの結合分布を扱えるようにしたものである。本モデルは、テキストから画像への変換や、テキストから音声への変換など、幅広いタスクにおいて、既存のあらゆる種類の変換モデルを凌駕する性能を示す。本稿では、以下の3つの主要な貢献を行う。第一に、RFをマルチモーダル設定に拡張し、新しいガイダンス機構を導入することで、生成された出力における異なるモダリティ間の整合性をユーザーが柔軟に制御できるようにした。第二に、Stable Diffusion 3のテキストから画像へのMMDiTアーキテクチャを拡張し、音声とテキストの生成を可能にする新しいアーキテクチャを提案した。拡張されたモジュールは個別に効率的に事前学習でき、従来のテキストから画像へのMMDiTと統合してファインチューニングすることができる。最後に、大規模な音声およびテキスト生成のための整流フロートランスフォーマーの設計選択について包括的な研究を行い、多様なモダリティにわたる性能最適化に関する貴重な知見を提供する。コードはhttps://github.com/jacklishufan/OmniFlowsで公開される予定である。
1 Introduction
生成モデリングは近年、著しい進歩を遂げている。特に、DALLE-3 [40]、Stable Diffusion 3 [11]、AudioLDM2 [33]などの拡散モデルは、テキストから画像、テキストから音声のタスクにおいて最先端の性能を達成している。しかし、これらのモデルは単一のタスクしか実行できず、訓練には膨大な計算リソースとデータを必要とする。任意の入力から任意の出力への生成を実現するために、CoDi [46]やUIO [36]などの先行研究は、通常、モダリティ固有のエンコーダー(例えば ViT [1])とデコーダー(例えば Stable Diffusion [44])のセットを組み合わせている。しかし、この設計はモデルがモダリティ間で情報を統合し、一貫性のあるマルチモーダル出力を生成する能力を制限している。例えば、音声+テキストから画像(A+TI)の生成を行う場合、CoDiは単に音声埋め込みとテキスト埋め込みの加重平均を取り、それを画像生成器の条件として使用する。しかし、平均化された埋め込みが2つの入力モダリティを忠実に表現できるという保証はない。なぜなら、任意の数のモダリティ埋め込みが同じ埋め込みに平均化される可能性があるからである。
任意の入力から任意の出力への生成のための代替アプローチは、単一のマルチモーダルモデルを使用して複数のモダリティの結合分布を学習することである。このアプローチは、モダリティ間で情報が流れることを可能にするため、しばしば強力な性能につながっている。しかし、既存の単一モデル設計は通常、ゼロからの訓練を伴うため、膨大な量のデータを必要とする。UniDiffuser [4]やChameleon [47]などのこの分野の既存の研究は、テキストと画像のモダリティのみを実験対象としている。また、これらは相当な計算リソースを必要とする。我々の知る限り、テキスト、画像、音声を同時にサポートする統一されたオープンソースのマルチモーダル生成モデルはまだ存在していない。
我々は、あらゆるモダリティ間の生成を可能にする統一マルチモーダル生成モデルOmniFlowを提案する。従来の統一マルチモーダルモデルとは異なり、OmniFlowはモジュラー設計により、大量のデータを用いて一から学習する必要がなく、学習に要する計算資源を大幅に節約できる。OmniFlowは、Stable Diffusion 3で使用されているMMDiTアーキテクチャ[11]にインスピレーションを得ている。MMDiTは、テキスト入力ストリームと画像出力ストリームを一連の結合注意ブロックを通じて組み合わせる二流ネットワークを用いてテキストから画像への生成を行う。OmniFlowはMMDiTを基に、追加の入力および出力ストリームを組み込むことで、テキストから画像への機能を拡張し、あらゆるモダリティ間の生成をサポートする。重要なのは、各ストリームのパラメータがほぼ独立しているため、個別に事前学習したり、事前学習済みの単一タスク専門モデル(例えばSD3)で初期化したりできることである。
OmniFlowを効果的に学習させるため、本稿では新しいマルチモーダル整流フロー定式化を提案する。これにより、テキストから音声、音声から画像などの多様なタスクを統一的な学習目的関数に組み込むことができる。マルチモーダル整流フローは、マルチモーダルデータペアの分布と独立同一分布のガウスノイズとの間の、時間微分可能な分離解釈に基づいている。この定式化では、あらゆるモダリティ間の生成タスクを2つのノイズレベルを結ぶパスで表現できる。例えば、テキスト、画像、音声のモダリティが与えられた場合、テキスト+音声から画像への生成タスク(T+AI)は、(クリーンなテキスト、クリーンな音声、ガウスノイズ)の分布から(クリーンなテキスト、クリーンな音声、クリーンな画像)への分布へのパスとして表現できる。
我々はOmniFlowの広範な評価を行った。実験結果は、OmniFlowがテキストから画像、テキストから音声の生成を含む幅広いタスクにおいて、従来のあらゆるモダリティ間モデルを凌駕することを示している。単一タスク専門モデルと比較しても、OmniFlowは最先端の手法と競合する性能を達成している。
要約すると、我々の貢献は以下の3点である:
-
•
第一に、我々は整流フロー定式化をマルチモーダル設定に拡張し、統一的なフレームワークにおいてあらゆるモダリティ間の生成の柔軟な学習をサポートする。
-
•
第二に、我々はあらゆるモダリティ間の生成タスクのための新規のモジュラー型マルチモーダルアーキテクチャであるOmniFlowを提案した。これにより、複数のモダリティが互いに直接相互作用することが可能になる一方で、個々のコンポーネントを独立して事前学習したり、タスク固有の専門モデルから初期化したりできるほど十分にモジュール化されている。
-
•
最後に、我々の知る限り、本稿は音声およびテキスト生成のための拡散トランスフォーマーと最先端のフローマッチング目的関数を組み合わせる様々な方法について体系的な調査を提供する初めての研究である。我々は有意義な洞察を提供し、コミュニティがテキストから画像への生成タスクを超えた将来のマルチモーダル拡散モデルを開発する一助となることを期待している。
2 Backgrounds
2.1 Flow-Based Generative Models
ここで、速度はニューラルネットワークによってパラメータ化される。この方程式を直接解くことは計算コストが高い。しかし、我々は順方向プロセスを定義し、条件付きフローマッチング(CFM)目的関数[48]を用いて条件付きベクトル場を直接回帰することができる:
(2) |
ここで、は信号対雑音比(SNR)であり、はによってパラメータ化される。この目的関数の最適値は、時間依存の重み付けを導入しても変わらないため、[22]に従って以下のように書き直すことができる:
(3) |
2.2 Any to Any Generation
先行研究では、任意から任意への生成が探求されてきた。CoDi [46]は、複数のモダリティ固有のエンコーダー(例えばViT)とデコーダー(例えばStable Diffusion)をブリッジアラインメントを通じて組み合わせることで、最初にこれを達成した。しかし、その設計はクロスモダリティの相互作用が限られている。例えば、テキスト+音声から画像への生成(T+AI生成)を実現するために、単にテキスト埋め込みと音声埋め込みの加重平均を計算するだけである。Unified-IO [36]は任意から任意への生成を系列対系列問題としてモデル化し、自己回帰モデルを使用してテキストから画像やテキストから音声などの任意から任意への生成を実現している。本稿は、任意から任意のタスクにマルチモーダルフローマッチング目的関数を使用した最初の研究である。
他の研究では、テキストから画像への生成と画像からテキストへの生成の統合に焦点を当てている。Chameleon [47]は、LLMのような大規模な自己回帰モデルを使用してマルチモーダルデータを扱う。画像はVQGANトークン [50]として表現される。Transfusion [52]は類似の設計を採用しているが、画像モデリングには非自己回帰的な拡散損失を使用し、テキスト生成には自己回帰的な損失を維持している。これらの統合されたマルチモーダルモデルは成功を収めているものの、複数のモデルを組み合わせた以前の研究よりもモジュール性が低いため、かなりの訓練リソースを必要とする。OmniFlowは、各モダリティのパラメータを分離しつつ、各モダリティの特徴が各層で自由に相互作用できるようにすることで、良好なバランスを達成している。
3 Method
3.1 Multi-Modal Rectified Flow
我々は、ペアのマルチモーダルデータ空間上の結合分布 を考える。ここで はモダリティ のサンプルであり、 次元のベクトルで表現される。 を独立同分布のガウス分布とし、 は 次元のガウスベクトルとする。経験的観測 および が与えられたとき、我々は以下の分離された、連続的な、時間微分補間を考える:
(4) | ||||
(5) | ||||
(6) |
ここで、式(2)の独立条件は が が動くときのみ動くことを示している。この解釈空間上で、我々はパス を用いて、これらのモダリティを含む任意から任意への生成タスクをモデル化できる。例えば、 が与えられたとき、 はそれぞれ画像、テキスト、音声のモダリティである。我々はテキストから画像への(TI)タスクを、 というパスとしてモデル化できる。ここで、 はクリーンなテキスト-画像ペアを表し、 はクリーンなテキストを表す。同様に、テキスト、画像、音声セットの結合サンプリングを から へのパスとしてモデル化でき、テキスト+画像から音声への()タスクを から へのパスとしてモデル化できる。
フローマッチング目的関数は、各モダリティに対して以下の形式の 個の最小二乗回帰問題を解くことになる:
(7) |
ここで、 であり、 は によってパラメータ化されたニューラルネットワークである。我々は同じネットワーク を用いて、すべてのモダリティ の出力を予測する。外側の期待値は、我々が興味を持つ生成タスクをエンコードするパスの事前分布に対するものである。積分はパス 上で計算され、 である。具体的には、我々の実験では画像、テキスト、音声をそれぞれモダリティ1、2、3として考える。我々は整流フロー定式化に従い、 における可能なすべての線形パス の分布を考える。これらは、テキストから画像やテキスト+画像から音声など、多様なタスクをエンコードできる。
訓練中、必ずしもすべてのデータポイントに対してすべてのモダリティが必要というわけではない。3つのモダリティのうち一部のみを含むデータポイント(例:テキスト-画像ペア)に対しては、残りのモダリティ(例:音声)の時間ステップを1に設定できる。これは完全なガウスノイズに対応する。完全な訓練アルゴリズムは以下の通りである:
3.2 Multi-Modal Guidance
マルチモーダル生成プロセスを柔軟に制御するために、我々はクラシファイアフリーガイダンス(CFG)[16]をマルチモーダル整流フロー設定に拡張する。単一モダリティのCFGは以下のように定式化されることを思い出されたい:
(8) |
ここで、は条件であり、は単一モーダル出力のタイムステップにおけるノイズ付きの潜在変数である。我々はこの定式化を、入力モダリティから出力モダリティへの影響を表すを定義することで、マルチモーダル設定に拡張する。具体的には、式に含まれないモダリティの入力をガウシアンノイズに設定することで、とを得る。例えば、3つのモダリティが与えられた場合、を計算することでを得ることができ、を計算することでを得ることができる。なお、は単なるガウシアンノイズである。
の集合が与えられた場合、以下の式によってモダリティiの出力生成をガイドすることができる:
(9) |
3.3 Model Architecture
我々は、Stable Diffusion 3で使用されているMMDiTアーキテクチャに対する、モジュラーで効果的な拡張であるOmniFlowを提案する。具体的には、テキスト、画像、音声からなるマルチモーダル入力が与えられた場合、まずモダリティ固有のVAEを使用してそれらを潜在変数 に変換する。次に、式 6で定義された順方向プロセスに従って、潜在変数にランダムなガウスノイズを加える。我々は、各モダリティのノイズスケールに相関する をエンコードするために3つの正弦波埋め込みを使用する。これら3つのタイムステップ埋め込みはMLPに渡され、すべてのモダリティ固有のタイムステップを表す単一の埋め込み が得られる。OmniFlowへの最終的な入力は、統一されたタイムステップ埋め込みyとノイズが加えられた潜在変数 である。これら4つの入力ベクトルは 個の連続したOmni-Transformerブロックに渡される。各モダリティの最終的な隠れ状態は、線形出力層によって処理され、 の予測が得られる。
各Omni-Transformerブロック内では、入力 はモダリティ固有の射影によって処理され、 が得られる。次に、クエリ、キー、バリューを連結して を得る。i番目のモダリティの結合注意出力 は以下のように与えられる:
(10) |
ここで、 は各注意ヘッドの次元である。出力はフィードフォワードネットワーク(FFN)に渡され、Omni-Transformerブロックの最終出力が得られる。DiT [41] の設計に従い、我々は統一されたタイム埋め込みを使用してqkv射影とFFNを変調する。結合注意操作の後とFFNの後にスキップ接続を追加する。
モデルアーキテクチャを 図 3 に示す。特筆すべきは、異なるモダリティが独立したパラメータを持つ異なる射影層とフィードフォワード層によって処理されることである。唯一のマルチモーダル操作は結合注意であり、それ自体には学習可能なパラメータがない。これにより、異なるモダリティの層を個別に事前学習し、微調整のために組み合わせることが可能となり、学習効率が大幅に向上する。
4 Setup
4.1 Training Dataset
我々は訓練中にテキスト-画像ペア、テキスト-音声ペア、および音声-画像ペアを使用する。また、少量のテキスト-画像-音声トリプレットも使用する。テキスト-画像ペアには、COYO-700Mデータセット[5]からサンプリングした5M画像、LAION-Aesthetic-3Mサブセット[25]からサンプリングした2M画像、LAION-COCOサブセット[26]からの7M画像、CC12Mデータセット[6]の全体、およびflux-devとDALLE-3[14]によって生成された2Mの高品質画像データセットが含まれる。出力の美的品質を維持するため、LAION-Aesthetic-3Mからの画像と2Mの高品質画像に高い重みを置いている。テキスト-音声ペアには、AudioSet[12]、Audiocaps[21]、およびWavCaps[37]の全訓練セットが含まれる。音声-画像ペアには、VGGSound[7]とSoundNet[2]の訓練データが含まれる。SoundNetは2M画像を含み、VGGSoundよりも大きいが、SoundNetには不適切にリサイズされたアスペクト比の悪い画像が多く含まれているため、VGGSoundとSoundNetのサンプル重みを2:1に設定している。
テキスト-画像-音声トリプレットを生成するために、我々はBLIP[28]を使用して、VGGSoundとSoundNetの動画に対する合成キャプションを生成する。データセット構築の詳細については付録で説明する。
4.2 Training Recipe
概略として、我々はOmniFlowをStable-Diffusion 3のテキストおよび画像モジュールで初期化する(モデル1)。まず、テキストと音声のペアを用いて別個のテキストから音声へのモデルを学習する(モデル2)。次に、モデル1とモデル2を統合し、テキスト、画像、音声モジュールを備えた結合モデルを得る(モデル3)。モデル1とモデル2は別個のテキストモジュールを持つため、統合プロセス中にそれらの重みを平均化する。最後に、セクション3.1で説明した方法を用いて、多様な任意から任意へのタスクでモデル3を微調整する。
我々のモジュラー設計により、各モジュールを個別に初期化および事前学習することができる。これにより、ゼロから学習される以前の統合マルチモーダルモデル(例えばUniDiffuser [4])と比較して、膨大な計算コストを節約できる。我々はグローバルバッチサイズ64を使用し、モデル2とモデル3をそれぞれ100,000ステップと150,000ステップ学習する。さらなる学習および実装の詳細は付録に記載する。
5 Main Results
5.1 Evaluation Metrics
我々は、ペアの生成(テキストから画像、テキストから音声)および、テキストから音声+画像(TI+A)、音声からテキスト+画像(AT+I)などの汎用的な任意から任意への生成について広範な実験を行った。テキストから画像生成については、MSCOCO-30Kベンチマーク[30]においてFID[15]およびCLIP[43]スコアを報告する。公式の実装に従い、CLIP埋め込み間のコサイン類似度を100倍している。また、GenEvalベンチマーク[13]の結果も報告する。音声生成については、AudioCapsにおいてFAD[20]およびCLAP[10]スコアを報告する。結果は16kHzのサンプリングレートで報告される。また、キャプション評価にもCLAPスコアを使用する。
5.2 Text-to-Image Generation
Model | Param | FID | CLIP |
---|---|---|---|
UniDiffuser | 0.9B | 9.71 | 30.93 |
CoDi | 4.3B | 11.26 | 30.69 |
UIO-2XXL | 6.8B | 13.39 | - |
SDv1.5 | 0.9B | 11.12 | 30.63 |
SDXL* | 2.6B | 16.49 | 31.36 |
SD3-Medium* | 2B | 20.94 | 30.65 |
OmniFlow* | 3.4B | 13.40 | 31.54 |
Model | Param | Images | Gen. | |
---|---|---|---|---|
Text-to-Image Specialist | ||||
SD1.5 | 0.9B | 4.0B | .43 | |
SDv2.1 | 0.9B | 2.3B | .50 | |
SDXL | 2.6B | 1.6B | .55 | |
DALL-E 2 | 4.2B | 2.6B | .52 | |
SD3-Medium | 2B | 1B | .62 | |
SD3-Large | 8B | 2.0B | .68 | |
Generalist | ||||
CoDi | 4.3B | 400M* | .38 | |
UniDiff. | 0.9B | 2B | .43 | |
OmniFlow | 3.4B | 30M* | .62 | |
Chameleon | 7B | 3.5B | .39 | |
Transfusion | 7B | 3.5B | .63 |
我々はMSCOCO-30kの結果を表 1に、GenEvalの結果を表 2に報告する。MSCOCO-30kにおいて、我々はSDXLやSD3-Mediumなどの最先端モデルよりも低いFIDを達成した。我々のFID数値は、SDv1.5などの以前のモデルよりも高いが、SDXLやSD3などのより最近のモデルは、COCOの画像の分布と一致しない高品質のテキスト-画像ペアで学習されているため、FID数値が高くなる傾向があることに注意すべきである[42]。特筆すべきは、SD3のFIDが20.94であるのに対し、SDv1.5は11.12であるが、人間による評価ではSD3の方が優れたモデルとされていることである。SD3のリリース以前に広く最先端のオープンソースモデルとして認識されていたSDXLも、SDv1.5よりも高いFIDを示している。
CLIPスコアに関しては、OmniFlowは以前のモデルを大幅に上回る性能を示している。特に、汎用モデルであるUniDiffuserやCoDiと比較すると、それぞれとの向上を達成し、テキストと画像の整合性が優れていることを示している。テキストから画像への能力をより適切に測定するGenEvalベンチマークでは、OmniFlowは0.62のスコアを達成し、最先端の専門モデルであるSD3-Mediumと比較しても競争力のあるスコアを示している。さらに、OmniFlowは同規模の以前のany-to-anyベースラインと比較して、CoDi(+.24)やUniDiffuser(+.19)を大幅に上回っている。より多くの画像で学習された大規模モデルと比較すると、OmniFlowはChameleon-7Bを上回り、Transfusion-7Bと競争力のある性能を達成している。
特筆すべきは、Chameleon、Transfusion、UniDiffuserが一からの学習を必要とするのに対し、OmniFlowは3000万の学習画像のみで高い性能を達成しており、我々のモジュラー設計の有効性を示している。CoDiの設計も事前学習済みのテキストから画像へのモデルを初期化に利用できるが、OmniFlowよりもかなり多くの画像で学習されているにもかかわらず、性能が劣っている。
5.3 Text-to-Audio Generation
Model | Param | FAD | CLAP |
Text-to-Audio Specialist | |||
AudioGen-L[24] | 1B | 1.82 | - |
Make-an-Audio[19] | 0.4B | 2.66 | - |
AudioLDM-L[32] | 0.7B | 1.96 | .141 |
Make-an-Audio 2[18] | 0.9B | 2.05 | .173 |
AudioLDM 2-Full-L[33] | 0.7B | 1.86 | .182 |
Generalist | |||
CoDi | 3.4B | 1.80 | .053* |
OmniFlow | 3.4B | 1.75 | .183 |
UIO-2XXL | 6.7B | 2.64 | - |
我々はAudioCapsにおけるテキストから音声への生成結果を表 3に報告する。従来の最先端技術と比較して、OmniFlowはFADとCLAPスコアにおいて強力な性能を達成している。FADにおいてAudioLDM2を上回り(-0.11)、CLAPにおいて同等の性能を達成している(+0.001)。汎用モデルと比較すると、OmniFlowはFAD(-0.05)とCLAP(+.13)の両方の指標においてCoDiを大幅に上回っている。
5.4 Receipes for Audio and Text Diffusions
Audio Gen. | Text Gen. | |
FAD | CLAP | |
Continuous Flow Matching | ||
eps/linear | 2.08 | .141 |
v/cos | 2.01 | .203 |
v/linear | 1.86 | .126 |
rf/uniform | 1.82 | .227 |
rf/lognorm | 1.79 | .254 |
Discrete Text Diffusion | ||
SEDD[35] | - | .180 |
MDLM[45] | - | .163 |
我々は、マルチモーダル生成のための音声およびテキスト拡散トランスフォーマーの訓練に関する様々な手法を探索した。これは比較的未開拓の分野である。具体的には、セクション 2.1で言及した5つの定式化を探索した。これらの実験では、音声とテキストモジュールのみを持つモデル(セクション 4.2のモデル2)を使用し、50,000ステップ訓練した。テキストから音声への生成にはFADスコアを、音声からテキストへの生成にはCLAPスコアを報告する。5つの定式化の中で、rf/lognormが最も優れており、最低のFAD(1.79)と最高のCLAPスコア(.254)を示した。我々はまた、最近の文献で連続空間拡散モデルよりも優位性を示したSEDD [35]とMDLM [45]という2つの離散空間拡散モデルも探索した。具体的には、SEDDの吸収状態バージョンを使用した。これらの実験では、テキストVAEエンコーダーをトークン埋め込み層に置き換え、テキストVAEデコーダーをトークンロジットを予測する単純な線形出力層に置き換えた。また、テキスト埋め込みに対するフローマッチング損失を、SEDDとMDLMそれぞれの損失関数に置き換えた。これらは連続的な埋め込みではなく、トークンロジットに対して動作する。音声からテキストへの生成に関するCLAPスコアを報告する。連続的な代替手法に比べて顕著な優位性は見られなかった。
6 Sampling
サンプリングの側面では、我々はガイダンスとタイムステップシフトの効果を探究した。タイムステップシフトは元々SD3によって、異なる解像度の画像のサンプリングプロセスのバランスを取るために導入された。具体的には、推論スケジュールを以下のように拡張する:
(11) |
ここで 、 は目標サンプル解像度、 は参照解像度である。音声およびテキスト生成においては、入力音声スペクトログラムとテキスト埋め込みは固定解像度を持つため、解像度の変化という概念は存在しない。しかし、我々は経験的にシフトを適用することで生成品質が向上することを観察した。具体的には、シフト項 を組み込むことで、凹型のスケジュールが生まれ、ノイズ除去プロセスは初めはゆっくりと進行し、終盤に向けて加速する。我々は、これがテキストから音声への生成およびオーディオからテキストへの生成タスクにおいてサンプル品質を向上させることを発見した。
我々はセクション3.2で言及したマルチモーダルガイダンスを採用している。単純な音声からテキストへの生成およびテキストから音声への生成では、我々の定式化は標準的なクラシファイアフリーガイダンスに帰着する。ガイダンスとタイムステップシフトの効果を図4に示す。一般的に、我々はshift=3.0が両タスクに対してうまく機能することを発見した。音声生成においては、ガイダンススケール8が最高のパフォーマンスを達成する。テキスト生成においては、ガイダンススケール4が最良の結果を達成する。
3.2節におけるマルチモーダルガイダンスの効果を探るため、我々は音声+画像からテキストへの変換(A+IT)タスクについて定性的な結果を提示する。ここで、は画像、テキスト、音声のモダリティを表すことを思い出されたい。このタスクにおけるマルチモーダルガイダンスは、とによって制御することができる。ここで、はテキストと画像の整合性を、はテキストと音声の整合性を制御する。簡略化のため、を、をと表記する。我々は、をの範囲で変化させ、となるようにした。結果を図5に示す。定性的には、が高いほどモデルの出力は音声キャプションに似たものになり、が高いほど画像キャプションに似たものになる。興味深いことに、これは訓練データにおける音声キャプションと画像キャプションのスタイルの微妙な違い(例えば、最初の文字が大文字かどうか)も反映していることが観察された。これら2つのパラメータを変化させることで、ユーザーは生成の柔軟な制御を達成できる。
6.1 Qualitative Comparison
我々は、OmniFlowを最近の2つのany-to-any生成手法であるCoDi [46]とUniDiffuser [4]と直接比較する。定量的結果に加えて、図 6にテキストから画像への比較の定性的結果を示す。これらの例は、OmniFlowが以前のany-to-anyモデルと比較して生成品質を大幅に改善していることを示している。具体的には、最初の例(上部)において、我々のモデルは高い美的品質を維持しながらプロンプトに忠実に従い、猫の特徴とその鏡像反射の両方を正確に捉えている。対照的に、CoDiは猫の目を変更することができず、UniDiffuserは猫が鏡を見ている様子を描写できていない。同様の傾向が3番目の例でも見られる:OmniFlowは縄に結ばれた提灯を正しく配置しているが、UniDiffuserは提灯を川の上に配置している。最後に、灯台の例では、CoDiはカモメを取り入れることができず、UniDiffuserは「穏やか」という形容詞を無視し、代わりに荒々しい波と焦点の合っていない灯台のある画像を生成している。
我々の結果は、OmniFlowが画像とテキストの整合性および画像の忠実度の両面において、以前のany-to-anyモデルと比較してはるかに高い生成品質を達成していることを示している。
7 Conclusion
我々は、あらゆる種類の生成タスクに対応する統一された早期融合マルチモーダル生成モデルであるOmniFlowを提案する。OmniFlowは、個々のコンポーネントを別々に事前学習できるモジュラー設計を採用しつつ、共同注意メカニズムを通じて異なるモダリティの特徴が直接相互作用することを可能にしている。我々は、OmniFlowがテキストから画像生成、テキストから音声生成を含む幅広い困難な生成タスクにおいて、従来のあらゆる種類の生成モデルを上回る性能を示すことを、広範な実験を通じて実証した。本稿では、付録においてOmniFlowの限界についてさらなる分析を提供している。
References
- Alexey [2020] Dosovitskiy Alexey. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929, 2020.
- Aytar et al. [2016] Yusuf Aytar, Carl Vondrick, and Antonio Torralba. Soundnet: Learning sound representations from unlabeled video. Advances in neural information processing systems, 29, 2016.
- BAI et al. [2024] JISHENG BAI, Haohe Liu, Mou Wang, Dongyuan Shi, Wenwu Wang, Mark D Plumbley, Woon-Seng Gan, and Jianfeng Chen. Audiosetcaps: Enriched audio captioning dataset generation using large audio language models. In Audio Imagination: NeurIPS 2024 Workshop AI-Driven Speech, Music, and Sound Generation, 2024.
- Bao et al. [2023] Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, and Jun Zhu. One transformer fits all distributions in multi-modal diffusion at scale. In International Conference on Machine Learning, pages 1692–1717. PMLR, 2023.
- Byeon et al. [2022] Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022.
- Changpinyo et al. [2021] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12M: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In CVPR, 2021.
- Chen et al. [2020] Honglie Chen, Weidi Xie, Andrea Vedaldi, and Andrew Zisserman. Vggsound: A large-scale audio-visual dataset. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 721–725. IEEE, 2020.
- Chen et al. [2024] Wenxi Chen, Ziyang Ma, Xiquan Li, Xuenan Xu, Yuzhe Liang, Zhisheng Zheng, Kai Yu, and Xie Chen. Slam-aac: Enhancing audio captioning with paraphrasing augmentation and clap-refine through llms. arXiv preprint arXiv:2410.09503, 2024.
- Chung et al. [2024] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. Journal of Machine Learning Research, 25(70):1–53, 2024.
- Elizalde et al. [2023] Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, and Huaming Wang. Clap learning audio concepts from natural language supervision. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1–5. IEEE, 2023.
- Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
- Gemmeke et al. [2017] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled dataset for audio events. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), pages 776–780. IEEE, 2017.
- Ghosh et al. [2024] Dhruba Ghosh, Hannaneh Hajishirzi, and Ludwig Schmidt. Geneval: An object-focused framework for evaluating text-to-image alignment. Advances in Neural Information Processing Systems, 36, 2024.
- Hate [2024] Jacky Hate. Text-to-image-2m dataset, 2024. Accessed: 2024-11-14.
- Heusel et al. [2017] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems, 30, 2017.
- Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
- Ho et al. [2022] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben Poole, Mohammad Norouzi, David J Fleet, et al. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303, 2022.
- Huang et al. [2023a] Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye, Chen Zhang, Jinglin Liu, Xiang Yin, Zejun Ma, and Zhou Zhao. Make-an-audio 2: Temporal-enhanced text-to-audio generation. arXiv preprint arXiv:2305.18474, 2023a.
- Huang et al. [2023b] Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, and Zhou Zhao. Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models. In International Conference on Machine Learning, pages 13916–13932. PMLR, 2023b.
- Kilgour et al. [2018] Kevin Kilgour, Mauricio Zuluaga, Dominik Roblek, and Matthew Sharifi. Fr’echet audio distance: A metric for evaluating music enhancement algorithms. arXiv preprint arXiv:1812.08466, 2018.
- Kim et al. [2019] Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, and Gunhee Kim. Audiocaps: Generating captions for audios in the wild. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 119–132, 2019.
- Kingma and Gao [2024] Diederik Kingma and Ruiqi Gao. Understanding diffusion objectives as the elbo with simple data augmentation. Advances in Neural Information Processing Systems, 36, 2024.
- Klein et al. [2024] Leon Klein, Andreas Krämer, and Frank Noé. Equivariant flow matching. Advances in Neural Information Processing Systems, 36, 2024.
- Kreuk et al. [2022] Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, and Yossi Adi. Audiogen: Textually guided audio generation. arXiv preprint arXiv:2209.15352, 2022.
- LAION [2023a] LAION. Aesthetics for open source, 2023a. Accessed: 2024-11-14.
- LAION [2023b] LAION. Laion coco: 600m synthetic captions from laion2b-en, 2023b. Accessed: 2024-11-14.
- Li et al. [2020] Chunyuan Li, Xiang Gao, Yuan Li, Baolin Peng, Xiujun Li, Yizhe Zhang, and Jianfeng Gao. Optimus: Organizing sentences via pre-trained modeling of a latent space. arXiv preprint arXiv:2004.04092, 2020.
- Li et al. [2022] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning, pages 12888–12900. PMLR, 2022.
- Li et al. [2023] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023.
- Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
- Lipman et al. [2022] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow matching for generative modeling. arXiv preprint arXiv:2210.02747, 2022.
- Liu et al. [2023] Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, and Mark D Plumbley. Audioldm: Text-to-audio generation with latent diffusion models. arXiv preprint arXiv:2301.12503, 2023.
- Liu et al. [2024] Haohe Liu, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Qiao Tian, Yuping Wang, Wenwu Wang, Yuxuan Wang, and Mark D Plumbley. Audioldm 2: Learning holistic audio generation with self-supervised pretraining. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
- Liu et al. [2022] Xingchao Liu, Chengyue Gong, and Qiang Liu. Flow straight and fast: Learning to generate and transfer data with rectified flow. arXiv preprint arXiv:2209.03003, 2022.
- Lou et al. [2024] Aaron Lou, Chenlin Meng, and Stefano Ermon. Discrete diffusion modeling by estimating the ratios of the data distribution. In Forty-first International Conference on Machine Learning, 2024.
- Lu et al. [2024] Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, and Aniruddha Kembhavi. Unified-io 2: Scaling autoregressive multimodal models with vision language audio and action. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26439–26455, 2024.
- Mei et al. [2024] Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, Mark D Plumbley, Yuexian Zou, and Wenwu Wang. Wavcaps: A chatgpt-assisted weakly-labelled audio captioning dataset for audio-language multimodal research. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2024.
- MidJourney AI [2024] MidJourney AI. Image generated using midjourney ai, 2024. Accessed on November 21, 2024. URL: https://www.midjourney.com/.
- Nichol and Dhariwal [2021] Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In International conference on machine learning, pages 8162–8171. PMLR, 2021.
- OpenAI [2023] OpenAI. Dall-e 3, 2023.
- Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
- Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
- Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
- Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
- Sahoo et al. [2024] Subham Sekhar Sahoo, Marianne Arriola, Aaron Gokaslan, Edgar Mariano Marroquin, Alexander M Rush, Yair Schiff, Justin T Chiu, and Volodymyr Kuleshov. Simple and effective masked diffusion language models. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
- Tang et al. [2024] Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, and Mohit Bansal. Any-to-any generation via composable diffusion. Advances in Neural Information Processing Systems, 36, 2024.
- Team [2024] Chameleon Team. Chameleon: Mixed-modal early-fusion foundation models. arXiv preprint arXiv:2405.09818, 2024.
- Tong et al. [2023] Alexander Tong, Nikolay Malkin, Guillaume Huguet, Yanlei Zhang, Jarrid Rector-Brooks, Kilian Fatras, Guy Wolf, and Yoshua Bengio. Conditional flow matching: Simulation-free dynamic optimal transport. arXiv preprint arXiv:2302.00482, 2(3), 2023.
- Vedantam et al. [2015] Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4566–4575, 2015.
- Yu et al. [2021] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan. arXiv preprint arXiv:2110.04627, 2021.
- Zhang et al. [2024] Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, and Wei Lu. Tinyllama: An open-source small language model. arXiv preprint arXiv:2401.02385, 2024.
- Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv preprint arXiv:2408.11039, 2024.
- Zhu et al. [2023] Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, WANG HongFa, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, et al. Languagebind: Extending video-language pretraining to n-modality by language-based semantic alignment. In The Twelfth International Conference on Learning Representations, 2023.
Appendix A Implementation Details
A.1 Dataset
Size | Modality | |
---|---|---|
LAION-Aesthetics-3M | 2M* | T,I |
CC12M | 12M | T,I |
COYO-700M(Subset) | 5M | T,I |
LAION-COCO | 7M | T,I |
SoundNet | 2M | T,A,I |
VGGSound | 0.2M | T,A,I |
T2I-2M | 2M | T,I |
AudioSet | 2M | T,A |
AudioCaps | 46K | T,A |
WavCaps | 0.4M | T,A |
A.2 Schedules
セクション3で述べたように、我々は内の異なるパスで異なるタスクを表現できることを思い出してほしい。これを図 7に視覚化する。我々は、任意対任意生成タスクに対して単純な線形タスクを採用した。これにより、テキストから画像やテキストから音声といった単純なケースでは、我々の定式化が標準的な整流フローと一致する。
A.3 Training Pipeline
我々はSD3(モデル1)でモデルを初期化する。まず、テキストと音声のペアでモデルを訓練し、モデル2を得る。モデル2のテキストブランチはSD3の重みで初期化され、音声ブランチはランダムに初期化される。訓練後、テキストブランチと画像ブランチを含むモデル1と、テキストブランチと音声ブランチを含むモデル2を、テキスト、画像、音声ブランチを含むモデル3に統合する。モデル3のテキストブランチは、モデル1と2のテキストブランチの重みを平均化して得られる。最後に、セクション A.1で言及したすべてのデータセットでモデル3を訓練する。この訓練パイプラインを図 8に示す。
我々はモデル2を100,000ステップ、モデル3を150,000ステップ訓練する。8台のA6000 GPUを使用し、GPU1台あたりのバッチサイズは8である。AdamWオプティマイザーを使用し、モデル2の学習率は1e-5、モデル3の学習率は5e-6である。学習率は最初の1,000ステップで線形ウォームアップを行い、残りの訓練期間中にコサイン減衰する。指数移動平均(EMA)を採用し、100訓練ステップごとに減衰係数0.999で更新される。
A.4 Text VAE
我々はFlan-T5-Lを使用してキャプションデータにテキストVAEを訓練する[9]。SD3[11]は3つのテキストエンコーダー(CLIP-L、CLIP-G、T5-XXL)を使用していることを思い出されたい。我々は計算コストを削減するために4.7BのT5-XXLをFlan-T5-L[27]に置き換え、テキストVAEの一部として使用する。具体的には、長さの入力キャプションが与えられると、まずFlan-T5-Lによってサイズのベクトルにエンコードされる。次に、それをQFormer[29]に渡し、サイズの出力ベクトルを得る。このベクトルがVAE埋め込みとして使用される。デコーディングプロセスでは、VAE埋め込みはまず線形射影層によってサイズのベクトルに処理される。これがTinyLlama-1.1Bデコーダー[51]のプレフィックス埋め込みとして使用される。これらのアーキテクチャ設計を図 9に示す。1.1Bのテキストデコーダーを導入したが、4.7BのT5-XXLを783MのFlan-T5-Lに置き換えたため、システム全体のパラメータ数は実際には少なくなっていることに注意されたい。
我々はOPTIMUSの自己エンコーディング訓練目的を採用する[27]。Flan-T5-Lエンコーダーを固定し、QFormerとTinyLlamaデコーダーをエンドツーエンドで微調整する。セクション A.1で言及したすべてのキャプションデータでテキストVAEを2エポック訓練する。学習率は1e-5、グローバルバッチサイズは256で、AdamWオプティマイザーを使用する。
OmniFlowのテキストエンコーダーとしてVAEエンコーダーを使用する際、SD3の入力次元を維持するために埋め込みを0で4096にパディングする。さらに、訓練を安定させるために、SD3のCLIP-LとCLIP-Gエンコーダーも補助的なテキストエンコーダーとして組み込む。訓練中、これらのエンコーダーにランダムドロップアウトを適用する。推論時、入力にクリーンなテキストが含まれていない場合(例:画像からテキストへのタスク)、CLIPエンコーダーは使用されない。
A.5 Audio VAE
我々は、AudioLDMで使用されているオーディオVAEを直接適用している [32]。
A.6 Omni-Transformer
我々は、画像およびテキストモジュールについてSD3のアーキテクチャ設計に従い、SD3の重みで初期化している。オーディオモジュールは画像モジュールと同一のセットアップで初期化されている。具体的には、24層で隠れ層のサイズは1536である。位置埋め込み層のパッチサイズは2である。オーディオVAEは 次元の特徴マップを出力するため、位置埋め込み層は各オーディオを長さ のシーケンスに変換する。
A.7 Pooled Conditional Embeddings
SD3は、シーケンス埋め込みに加えて、CLIP-ViT-L/14およびCLIP-ViT-G/14からの追加のプールされた埋め込みを使用している。我々はこれらをそのまま維持し、訓練中に追加のドロップアウトを適用している。さらに、オーディオ入力用のプールされた埋め込みを作成するためにオーディオエンコーダーを組み込んでいる [53]。これらの埋め込みは、それぞれのモダリティのクリーンなデータが利用できない場合には使用されない。
A.8 Baselines
linearはLDMで使用されるDDPMの変種である[44]。タイムステップをに離散化し、という定式化を用いる。ここで、、そしてである。我々は、この変種に対して予測とであり、予測目的関数に対して用いられる[17]。
SEDD及びMDLMは最近提案された離散テキスト拡散モデルである。我々の実験では、MDLM[45]とSEDDの吸収状態変種[35]を考慮する。111SEDDには一様変種もあり、そこではトークンは"[MASK]"トークンではなく、語彙からランダムにサンプリングされたトークンに置き換えられる。これらのモデルは離散トークン空間で直接前方過程を定義し、クリーンなテキストトークンが徐々に特殊な"[MASK]"トークンに置き換えられる。我々は、これらの手法に対して、テキストVAEを除去しトークン埋め込み層を導入することで実装を適応させた。この設計は図 10に示されている。
Appendix B Additional Discussions
B.1 Sampling
OmniFlowは2つのモダリティの周辺分布を直接モデル化しない。例えば、3つのモダリティ が与えられた場合、 を直接モデル化しない。ここで、 は の次元である。 について積分することは不可能である。代わりに、我々は以下のようにしてサンプリングを行う。まず をサンプリングし、次に をサンプリングする。そして を(1,0,1)から(0,0,1)へのパスを使用してサンプリングする。
B.2 Necessity of text, image, audio triplets.
複数の入力モダリティの埋め込みの重み付き平均を使用するCoDi[46]のような以前の研究と比較して、OmniFlowはすべてのモダリティ(画像、テキスト、音声)で構成される三つ組を直接訓練する必要がある。この要件の必要性を研究するために、我々は3つのモダリティに関する合成的なおもちゃの例を実施した。各モダリティは1次元ベクトルで表現される。3つのモダリティの三つ組は、3次元空間の点で表現できる。この実験を図 11に示す。我々は、真のデータ分布が四面体に隣接する小さな近傍で一様分布に従うと仮定する(最左図)。我々は、三つ組(左から2番目の図)、、、のペア(右から2番目の図)、および個々のモダリティ(最右図)のみで8層MLPを訓練する実験を行った。各モデルについて、モデルによって生成された50,000サンプルをプロットした。定性的に、三つ組で訓練されたモデルがデータ分布を最もよく表現している。これは理にかなっている。なぜなら、ペアは本質的にXY、XZ、YZ平面への投影であり、個々のモダリティはX、Y、Z軸への投影だからである。これらの投影は、この3次元空間で表現される元の分布を復元するには不十分である。
Appendix C Quantative Text Evaluation
AudioCaps | COCO-Karpathy | |||||
Images | Parms. | CLAP | CIDEr | CLIP | CIDEr | |
Specialist | ||||||
BLIP-2[29] | 129M | 2.7B | - | - | - | 145.8 |
SLAM-AAC[8] | - | 7B | - | 84.1 | - | - |
Generalist | ||||||
OmniFlow | 30M | 3.4B | 0.254 | 48.0 | 26.8 | 47.3 |
CoDi | 400M | 4.3B | 0.206 | 7.9 | 25.9 | 17.2 |
Unidiffuser | 2B | 0.9B | - | - | 29.3 | 20.5 |
UIO2-XXL | 1B* | 6.8B | - | 48.9 | - | 125.4* |
Transfusion | 3.5B | 7B | - | - | - | 35.2 |
我々は、COCO-Karpathy-Testデータセットにおける画像キャプション生成とAudiocapsデータセットにおける音声キャプション生成の定量的結果を報告する。これら2つのベンチマークにおいて、CLIPスコア、CLAPスコア、およびCIDEr[49]を報告する。我々は、CoDiやUni-Diffuserなどの汎用モデルと比較する。Uni-Diffuserは、v0とv1の2つのチェックポイントをリリースしており、v1は内部データでファインチューニングされている。公平性を期すため、我々はv0と比較する。OmniFlowは両タスクでCoDiを上回り、CIDErスコアではUniDiffuserを上回っている(+26.8)。CLIPスコアは若干低い(-2.5)。OmniFlowがUniDiffuserよりも大幅に少ないデータで訓練され、音声キャプション生成タスクも実行できることを考慮すると、OmniFlowの性能は競争力があると考えられる。汎用モデルの性能は、それぞれのデータセットでファインチューニングされた専門モデルに比べて大きく遅れをとっており、さらなる改善の余地があることを示唆している。我々は制限事項のセクションでさらなる議論を提供する。
Appendix D Additional Qualitative Results
D.1 Text-to-Image
図 14はOmniFlowのテキストから画像への変換の多様な定性的例を示している。我々のアプローチの堅牢性を示すために、様々な人物、シーン、物体を描写している。
D.2 Image-to-Text
我々は、OmniFlow、CoDi [46]、UniDiffuser [4]の画像からテキストへの変換を、Midjourney Exploreページ [38]の合成高品質画像を使用して、図 12で並べて比較している。
D.3 Audio-to-Text
表 7では、Audiocapsの音声からテキストへの変換タスクにおける定性的結果を示している。OmniFlowは正解と一致するキャプションを生成することができる。CoDiは「車」「鳥」「羊」「コンピュータ」などの音声中の主要な物体を正確に把握できるが、シーンを正確に反映したキャプションの生成に苦戦している。
D.4 Text-VAE AutoEncoding
表 8に、テキストVAEの再構成例を示す。再構成は主に正解のセマンティクスを維持しているが、若干の差異がある。例えば、「well-furnished」が「well-decorated」に変更されるなどである。
ID | CoDi | OmniFlow | GT |
---|---|---|---|
yVjivgsU2aA | Four car driver trying forcoming for a speeding car. | A race car engine revs and tires squeal. | An engine running followed by the engine revving and tires screeching. |
8F-ndyrEWJ8 | Fire police cars stop and red traffic on different highway. | A fire siren goes off loudly as a man shouts and a low hum of an engine is running throughout the whole time. | A distant police siren, then racing car engine noise, and a man calling in police code over his radio. |
350OCezayrk | Four motor car driving for completing an automobile service. | A vehicle engine is revving and idling. | A motor vehicle engine starter grinds, and a mid-size engine starts up and idles smoothly. |
LCwSUVuTyvg | Door, a blue hat and winter jacket. | A door is being slammed. | Glass doors slamming and sliding shut. |
7XUt6sQS7nM | The sheep of the woman are the sheep of the sheep. | Multiple sheep bleat nearby. | A sheep is bleating and a crowd is murmuring. |
PVvi2SDOjVc | Car going for a car coming home. Three cars coming for a blue car coming down a road after the highway. | A car horn beeps. | A car engine idles and then the horn blows. |
Z_smJ66Tb3c | Men in the bird while the man in the boat. | Two men talk over blowing wind and bird chirps. | A man is speaking with bird sounds in the background followed by a whistling sound. |
CMNlIW6Lkwc | Two men in the fire and two men are coming towards the other man in the game. | A man speaks, followed by a loud bang and people laughing. | A man talking as a camera muffles followed by a loud explosion then a group of people laughing and talking. |
JQz40TkjymY | Writing computers for people in writing. | Typing on a computer keyboard. | Typing on a computer keyboard. |
U90e2P9jy30 | A man shouts the word to the person on the sidewalk to walk to get him to the door the hand to fall down on the sidewalk in. | Basketballs being dribbled and people talking. | Several basketballs bouncing and shoes squeaking on a hardwood surface as a man yells in the distance. |
5I8lmN8rwDM | Stationary fire drill technician drilling down a hose pipe while wearing safety gear. Railroad safety drill for motorcycle with hose or oil checking equipment. | A drill runs continuously. | Drilling noise loud and continues. |
NlKlRKz8OKI | Birds on blue birds. | A woman talks and then an animal chewing. | A woman speaks with flapping wings and chirping birds. |
Reconstruction | GT |
---|---|
Crispy chicken tenders alongside a portion of a bbq sauce. | Crispy chicken tenders alongside a portion of bbq sauce. |
A well-furnished living room with a patterned curtain rod, a small white side table holding a vase of flowers, and a tufted gray sofa. | A well-decorated living room with a patterned curtain panel hanging from the window, a small white side table holding a vase of flowers, and a tufted gray sofa. |
A young man wearing a black shirt and holding an American flag. | A young man wearing a black shirt and holding an American flag. |
An artistic painting of a futuristic city by the water. | An artistic painting of a futuristic city by the water. |
Cozy and well-designed living room with a green velvet sofa, glass coffee table displaying potted plants, and a large skylight overhead. | Cozy and stylish living room with a green velvet sofa, glass coffee table displaying potted plants, and a large skylight overhead. |
A silver Audi Rs4 sedan driving on the passenger side near a mountainous coastline. | A silver Acura RLX sedan driving on the passenger side near a mountainous coastline. |
Appendix E Limitations
テキスト生成タスクにおいて、我々のモデルの性能は最先端ではなく、改善の余地が大きい。これは、MSCOCOなどの標準的なベンチマークデータセットの分布とは異なる、多くのノイズの多いテキスト(例:代替テキスト、人間が書いたプロンプト)を含む大規模データを取り入れた副作用であると我々は考えている。さらに、特に画像からテキストへのタスクについては、OmniFlowは訓練中にCoDi(4億)やUniDiffuser(20億)などの以前の汎用モデルと比較して、かなり少ない画像-テキストペア(3000万)にしか触れていない。また、異なる品質のキャプションデータセットのバランスをとる問題もある。例えば、WavCapsは弱ラベル付けデータセットであるが、高品質のAudioCapsの10倍の規模がある。AudioCapsベンチマークで高スコアを達成できるキャプションを生成するには、追加の考慮が必要である。これらの限界にもかかわらず、我々はOmniFlowが定量的および定性的実験を通じて、合理的な画像および音声キャプションを生成できることを示している。本稿は、任意の入力から任意の出力への汎用モデルの効果的なレシピの開発に焦点を当てている。テキスト生成の最適化は今後の研究に委ねる。
画像生成タスクにおいて、OmniFlowは高品質の画像を生成できるが、他のテキストから画像へのモデルと同様の限界がある。例えば、訓練データセットから意図しないバイアスを継承する可能性がある。また、通常のSD3モデルが苦戦するプロンプトに対しても同様に苦戦する可能性がある。
Appendix F Miscellaneous
F.1 Reproducibility of CoDi
CoDiの結果を正確に再現するために[46]、我々はi-Code-V3 GitHubリポジトリに示されている重みと指示に従った222https://github.com/microsoft/i-Code/tree/main/i-Code-V3。しかし、他者によって報告されている未解決のオープンイシューと同様に、我々も再現性の問題に直面した333https://github.com/microsoft/i-Code/issues/134。
Appendix G Reproducibility Statement
本稿で使用したすべてのデータセットは、我々が生成したSoundNetとVGGSoundの合成キャプションを除き、インターネットから公開されており、アクセス可能である。我々は、これら2つのデータセットに関するコード、チェックポイント、および生成されたキャプションを公開する予定である。
Appendix H Failure Cases
図13において、我々はOmniFlowのテキストから画像生成を行う際の複数の失敗事例を提示する。スノーグローブの例では、モデルは「雪の代わりに渦巻く火の粉」という指示を正しく解釈できず、誤って雪を生成してしまっている。ダンサーの例では、「動きによってぼやけた動作」というプロンプトが不適切に追加の腕として表現されている問題が生じている。最後に、鯉の池とラーメンの例は不自然な出力を示しており、前者は池に魚を不自然に編集した画像のように見え、後者は通りに不自然に配置された過大サイズの麺鉢を描写している。