arXiv	https://arxiv.org/abs/2412.12095
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Causal Diffusion Transformers for Generative Modeling

Chaorui Deng Deyao Zhu Kunchang Li Shi Guang Haoqi Fan
ByteDance
causalfusion.git

Abstract

我々は、拡散モデルの自己回帰（AR）版として、因果拡散を導入する。これは、離散的および連続的なモダリティの両方に適した次のトークン予測フレームワークであり、LLaMaやGPTなどの既存の次のトークン予測モデルと互換性がある。最近の研究では拡散とARモデルを組み合わせる試みがなされているが、我々は拡散モデルに逐次的な因子分解を導入することで、その性能を大幅に向上させ、ARと拡散生成モードの間のスムーズな移行を可能にすることを示す。そこで我々は、CausalFusionを提案する。これは、逐次的なトークンと拡散ノイズレベルにわたってデータを二重因子分解するデコーダーのみのトランスフォーマーであり、ImageNet生成ベンチマークで最先端の結果をもたらすと同時に、文脈内推論のために任意の数のトークンを生成するというARの利点も享受する。さらに、我々はCausalFusionのマルチモーダル能力を、画像生成とキャプション生成を組み合わせたモデルを通じて実証し、ゼロショットの文脈内画像操作能力を示す。本稿が、離散的および連続的なデータに対するマルチモーダルモデルの訓練に関して、コミュニティに新たな視点を提供することを期待する。

1 Introduction

自己回帰（AR）モデルと拡散モデルは、データ分布のモデリングにおける2つの強力なパラダイムである。ARモデル（次トークン予測アプローチとしても知られる）は言語モデリングを支配しており、大規模言語モデル（LLM）の成功の中心と考えられている[46, 47, 5, 61, 62, 16]。一方、拡散モデル[26, 44, 13, 29]、あるいはスコアベースの生成モデル[54, 37]は、視覚生成の主要なアプローチとして台頭し、視覚コンテンツ生成の時代において前例のない進歩を推進している[4, 50, 17]。

Refer to caption — 図1: 二重因子化の図解。矢印の線はCausalFusionの生成経路を示しており、各ステップで順序次元とノイズレベル次元に沿って共同で生成することで、一つの状態から次の状態へ移動する。 DiTと比較して、我々のIn-context DiTは少ないパラメータでも結果を大幅に改善する。CausalFusionはさらに、アーキテクチャやパラメータ数を変更せずにパフォーマンスを向上させる。結果はIN1Kで240エポック訓練されたものである。CausalFusionは画像生成に任意のARステップを採用するが、各ステップは部分的なトークンのみを拡散するため、同様の（あるいはわずかに低い）計算複雑性となる。

ARモデルと拡散モデルの本質的な違いは、データ分布の因子分解へのアプローチにある。ARモデルはデータを順序付けられたシーケンスとして扱い、シーケンシャルな軸に沿って因子分解を行う。ここでは、各トークンの確率は先行するすべてのトークンに条件付けられる。この因子分解により、AR paradigmは任意の数のトークンに対して効果的かつ効率的に一般化することができ、長いシーケンスの推論やコンテキスト内生成に適している。一方、拡散モデルはノイズレベルの軸に沿ってデータを因子分解する。各ステップのトークンは、前のステップの自身の洗練された（ノイズ除去された）バージョンとなる。その結果、拡散パラダイムは任意の数のデータ洗練ステップに一般化可能であり、推論計算をスケールアップすることで反復的な品質向上を可能にする。ARモデルと拡散モデルはそれぞれの領域で優れているが、その異なる因子分解アプローチは相補的な可能性を示している。最近の研究[75, 72, 21]ではARと拡散を単一のモデル内に統合しようとしているが、これらのパラダイムを別々のモードとして扱うことが多く、2次元の因子分解平面内で共同で探索する潜在的な利点を見逃している。

この目的のため、我々はCausalFusionを導入する。これは、逐次的データ分解とノイズレベルデータ分解の両方を統合し、それらの利点を統一する柔軟なフレームワークである。これら二つの軸に沿った分解の度合い—すなわち、ARステップと拡散ステップ—は調整可能であり、CausalFusionはいずれの極端な場合でも従来のARまたは拡散パラダイムにシームレスに戻ることができる。その汎用性を高めるため、CausalFusionは任意の数のトークンを任意のARステップで、任意の事前定義された配列順序と任意のレベルの推論計算で予測するように設計されており、これにより既存の生成モデルに存在する帰納的バイアスを最小限に抑えている。図1に示すように、このアプローチはARと拡散パラダイムの間の広範なスペクトルを提供し、訓練と推論の両方において二つの端点内でのスムーズな補間を可能にする。具体的には、我々は画像生成とマルチモーダル生成のシナリオでCausalFusionを探求し、訓練の難しさのレベルがCausalFusionの全体的な有効性に大きく影響することを観察した。

CausalFusionにおける生成タスクの難しさ： ARと拡散パラダイムの両方が、それぞれの特定の生成段階の難しさに基づいてユニークな課題を提示する。拡散モデルでは、訓練の有効性はノイズレベル間での適切な損失重み付けに大きく依存する[26, 22]。より高いノイズレベルはより困難であり、通常、より低いノイズレベルよりも価値のある信号を提供する。同様に、ARモデルは誤差の蓄積に影響されやすい[3]。これは、初期段階の予測が限られた可視コンテキストで行われるため、より誤りが生じやすいためである。したがって、CausalFusionの最適化には、これらの様々なタスクの難しさにわたってバランスを取り、訓練信号の影響を最適化し、分解平面全体にわたる十分な探索を確保することが必要である。

本稿では、CausalFusion内の生成タスクの困難さを形式的に検討する。我々は、拡散におけるノイズレベルやARにおける可視コンテキストの量に加えて、ARと拡散の間の補間を制御するARステップの総数も、トレーニングの困難さを形作る上で重要な役割を果たすことを示す。これらの要因に基づき、我々はCausalFusionフレームワークに基づいた拡張性と汎用性のあるモデルを開発する。DiTアーキテクチャ[44]から始め、我々はそれを徐々にGPT[46, 47, 5]やLLaMA[61, 62, 16]のような既存のARモデルと互換性のあるデコーダーオンリーのトランスフォーマーに変換する。CausalFusionモデルのトレーニング中にARステップ数を適切に選択する方法について洞察を提供し、さらに拡散軸とAR軸の両方に沿って損失の重み付けを導入し、異なる生成段階の影響のバランスを取る。図1および2に示すように、我々のモデルはImageNetのクラス条件付き生成ベンチマークで最先端の性能を達成し、DiT[44]を大幅に上回り、そのAR的性質によりゼロショット画像操作を可能にする。テキストから画像への変換と画像からテキストへの変換の両方でプレトレーニングを行うと、我々のモデルはTransFusion[75]のような強制融合フレームワークを凌駕し、我々のCausalFusionフレームワークの汎用性を示している。

我々の主な貢献を以下に示す：

•

我々は、DiTのAR対応版としてCausalFusionを提案し、最先端の結果を達成し、文脈内推論のための無制限のトークン生成を可能にする。
•

我々は、二重因子分解平面上でCausalFusionを体系的に研究し、CausalFusionモデルの有効性を向上させる主要な要因を特定する。
•

最近の研究[75]と比較して、CausalFusionはクロスモーダル生成と推論のための言語モデリングとのスムーズで一貫性のある統合を可能にする。

2 Related Works

拡散モデル。拡散モデル[52, 53, 26]は、画像生成タスクを一連の反復的なノイズ除去ステップに分解し、ノイズを徐々に一貫性のある画像に変換する。初期の拡散モデル[13, 50, 45, 43, 49]はU-netアーキテクチャを用いて、高品質な画像合成のためのノイズ除去技術を先駆的に開発した。後の研究[44, 1]であるDiTは、U-netからトランスフォーマーベースのアーキテクチャに移行し、より大規模な計算スケーラビリティを可能にした。最新の手法[8, 33]は、DiTアーキテクチャをさらに拡張し、大幅に大規模な学習リソースを活用して印象的な画像生成品質を達成している。

自己回帰生成。画像生成のもう一つの一般的なアプローチは、トークンごとに画像を予測する自己回帰（AR）トランスフォーマーを使用することである。初期の研究[48, 14, 19, 68]では、ラスター順に画像トークンを生成し、画像グリッド全体を順次進行させた。このラスター化されたアプローチは後に非効率的であると指摘され[6]、研究者たちはランダム順序生成手法[6, 7]の探求を始めた。 ARメソッドはさらに進化し、動画生成[31]や任意から任意への生成[40, 70]などの新しいモダリティを含むようになった。

拡散モデルと自己回帰モデルの組み合わせ。近年のモデルは、ARと拡散プロセスを統合するための様々な方法を探求している。DART [21]は、現在のステップのみではなく複数の過去のノイズ除去ステップを条件とすることで、非マルコフ的フレームワークにおいてARと拡散を統一している。BiGR [23]は、ベルヌーイ拡散プロセスを用いて離散的な二値画像コードを自己回帰的に生成する。MAR [34]は、連続値の生成を可能にするために小規模な拡散ヘッドを持つARモデルを採用している。Emu2 [57]は、ARベースのマルチモーダル出力をデコードするために外部の拡散モジュールを適用している。これらの先行手法と比較して、CausalFusionは自己回帰的な系列分解に焦点を当て、系列トークンとノイズレベルの両方にわたって拡散データ処理を分離することで、従来の拡散フレームワークを大きく上回る性能向上を達成している。

3 CausalFusion

Preliminaries.

我々はまず、画像モデリングの文脈におけるAutoregressive (AR)モデルとDiffusionモデルのパラダイムを簡単に概観し、その後我々のCausalFusionモデルを紹介する。両パラダイムは画像分布を条件付き分布の連鎖に分解するが、その方法は異なる軸に沿って行われる。訓練画像のサンプル $\mathbf{X}$ が与えられたとき、ARモデルは $\mathbf{X}$ を空間次元に沿ってトークンの系列 $\mathbf{X}=\{\mathbf{x}_{1},\dots,\mathbf{x}_{L}\}$ に分割する。ここで $L$ はトークンの数である。 $\mathbf{X}$ の結合分布は以下のように逐次的に因子分解できる：

q(\mathbf{x}_{1:L})=q(\mathbf{x}_{1})\prod_{l=2}^{L}q(\mathbf{x}_{l}|\mathbf{x% }_{1:l-1}).

(1)

訓練時には、ニューラルネットワーク $p_{\theta}(\mathbf{x}_{l}|\mathbf{x}_{1:l-1})$ が $q(\mathbf{x}_{l}|\mathbf{x}_{1:l-1})$ を近似するよう、クロスエントロピー $-\mathbb{E}_{q(\mathbf{x}_{1:L})}\log p_{\theta}(\mathbf{x}_{1:L})$ を最小化することで学習される。推論時には、画像は次トークン予測パラダイムによって生成される。

対照的に、Diffusionモデルは $\mathbf{X}$ にランダムノイズ（通常はガウシアン）を徐々に加えていく、いわゆる順過程を用いる。これはノイズレベルに沿ったマルコフ連鎖であり、各ノイズ版 $\mathbf{x}_{t}$ は前の状態 $\mathbf{x}_{t-1}$ を条件として $q(\mathbf{x}_{t}|\mathbf{x}_{t-1})=\mathcal{N}(\mathbf{x}_{t};\sqrt{1-\beta_{t% }}\mathbf{x}_{t-1},\beta_{t}\mathbf{I})$ のように生成される。ここで、 $\beta_{t}$ は分散スケジュールであり、順過程がクリーンな画像 $\mathbf{x}_{0}=\mathbf{X}$ から始まり、 $t\rightarrow T$ に向かってランダムノイズに徐々に収束することを保証する。 $\mathbf{X}$ の結合分布は以下のように因子分解される：

q(\mathbf{x}_{0:T})=q(\mathbf{x}_{0})\prod_{t=1}^{T}q(\mathbf{x}_{t}|\mathbf{x% }_{t-1}).

(2)

ノイズから $\mathbf{X}$ を得るために、ニューラルネットワークは $t\in[1,T]$ に対する順過程の逆遷移を近似するよう訓練される：

p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})=\mathcal{N}(\mathbf{x}_{t-1};{\mu_% {\theta}}(\mathbf{x}_{t}),\Sigma_{\theta}(\mathbf{x}_{t}))

(3)

ARモデルと同様に、訓練は $q(\mathbf{x}_{0:T})$ と $p_{\theta}(\mathbf{x}_{0:T})$ の間のクロスエントロピーを最小化することを含む。 DDPM[26]では、 $\Sigma_{\theta}(\mathbf{x}_{t})$ は順過程から導出された定数値に設定され、 $\mu_{\theta}(\mathbf{x}_{t})$ は $\mathbf{x}_{t}$ と順過程のノイズ $\mathbf{\epsilon}$ を予測するノイズ予測モデル $\epsilon_{\theta}$ の線形結合として設定される。このパラメータ化は以下の訓練目的関数につながる：

\min_{\theta}\mathbb{E}_{\mathbf{x}_{0},\mathbf{\epsilon},t}[w(t)\|\mathbf{% \epsilon}-\epsilon_{\theta}(\mathbf{x}_{t},t)\|^{2}]

(4)

ここで $w(t)$ はノイズスケジュール $\beta_{t}$ に従って導出され、 $t$ が大きくなるにつれて徐々に減衰する。この目的関数はさらに、すべての $t$ に対して $w(t)=1$ と設定することで簡略化され、より困難なノイズ除去タスク（すなわち、より大きなノイズレベル）を大きな $t$ ステップでより重視する重み付けされた証拠下界となる。

Our approach.

上記の定式化から、ARおよび拡散パラダイムは、それぞれシーケンス長とノイズ除去ステップのスケーリングを自然にサポートし、画像生成に対して相補的な利点を提供している。これらの利点を統合するために、我々はCausalFusionを提案する。これは両方の方向に効果的にスケールする一般的なパラダイムである。

我々は、式(2)を直接拡張してAR因子分解を包含することから始める：

		$\displaystyle q(\mathbf{x}_{0:T,\kappa_{s}}\|\mathbf{x}_{0,\kappa_{1:s-1}})=$
		$\displaystyle q(\mathbf{x}_{0,\kappa_{s}})\prod_{t=1}^{T}q(\mathbf{x}_{t,% \kappa_{s}}\|\mathbf{x}_{t-1,\kappa_{s}},\mathbf{x}_{0,\kappa_{1:s-1}})$		(5)

ここで、 $s\in[1,S]$ 。 $S$ はARステップの総数を表し、 $\kappa_{s}$ は $s$ 番目のARステップで処理される画像トークンの部分集合を識別するインデックス集合であり、 $|\kappa_{s}|$ はこの部分集合内のトークン数を表す。各ARステップは $\kappa_{s}$ によって示されるトークンのみを処理し、図1の上段に示すように、画像の特定の部分を分離する。 $\mathbf{x}_{t,\kappa_{s}}$ は $s$ 番目のARステップと $t$ 番目の拡散ステップにおける二重因子分解された画像トークンを表す。

訓練中、我々のCausalFusionモデルの目的は、すべての $t$ と $s$ に対して $p_{\theta}(\mathbf{x}_{t-1,\kappa_{s}}|\mathbf{x}_{t,\kappa_{s}},\mathbf{x}_{0% ,\kappa_{1:s-1}})$ を近似することである。式(3)の定式化と比較して、CausalFusionは、訓練シーケンスが現在のARステップ $\mathbf{x}_{t,\kappa_{s}}$ のノイズ付き画像トークンだけでなく、すべての以前のARステップ $\mathbf{x}_{0,\kappa_{1:s-1}}$ からのクリーンな画像トークンも含むことを要求する。これにより、モデルは以前のARステップからの情報を活用して、現在のトークンを効果的に洗練することができる。また、 $\mathbf{x}_{0,\kappa_{1:s-1}}$ が $\mathbf{x}_{t,\kappa_{s}}$ を観察することを防ぐために、一般化された因果的注意マスクも必要である。推論時には、式(3)の二重因子分解により、CausalFusionは次のトークン(群)拡散アプローチを通じて無制限の画像トークンシーケンスを生成しながら、より多くの拡散ステップを適用することで各トークンの品質を向上させることができる。CausalFusionモデルアーキテクチャの図解については、図3(b)を参照されたい。一般化された因果的注意マスクの詳細については、付録Aを参照されたい。

特筆すべきは、最小の帰納的バイアスの原則に従い、CausalFusionはARステップ数 $S$ 、各ARステップで処理されるトークン数 $|\kappa_{s}|$ 、または各ARステップ内の特定のトークンインデックスに制限を課さないことである。この柔軟性により、訓練段階と推論段階の両方で生成モデリングの幅広い探索空間が可能となる。

Model	Params (M)	FID10k $\downarrow$
DiT [44]	458	18.24
- AdaLN-zero [44]	305	26.71
+ new recipe	305	21.94
+ T embedding	308	20.68
+ QK-norm	308	18.66
+ lr warmup	308	17.11
+ All (In-context DiT)	308	13.78

表1: 文脈内DiTベースライン。ImageNet 256

\times

256、240エポック。ベースライン設定は下線で示され、選択された設定は灰色でハイライトされている。

4 Initial studies on CausalFusion

CausalFusionの設計空間を体系的に研究するために、我々はImageNetデータセット[12]で実験を行い、256 $\times$ 256の解像度でクラス条件付き画像生成モデルを訓練した。我々はDiT-L/2モデルを基本構成として使用している。すべてのモデルは240エポックで訓練され、FID-10k（特に指定がない限り、FID-10KとFIDを互換的に使用する）とADM [13]コードベースを用いて評価された。詳細な訓練レシピとモデル構成は付録Cに記載されている。

Baseline setup: In-context DiT.

我々の目標はARとDiffusionのパラダイムを統合することであるため、まずそれらのアーキテクチャを統一する必要がある。この目的のため、我々はTransformerベースのDiTモデル[44]から始める。DiTの設計に従い、256 $\times$ 256の画像は事前学習されたVAEモデルを用いて32 $\times$ 32の潜在表現[50]にエンコードされ、その後2 $\times$ 2のパッチ化層によって $L$ = 256の潜在トークンの系列が生成される。元のDiTでは、条件情報（例えば、ラベルクラス）と拡散時間ステップはAdaLN-zeroコンポーネントを通じて組み込まれるが、これはデコーダーのみのLLMとは互換性がない。この制限に対処するため、我々は[44]からDiTの文脈内設計を採用し、クラスと時間ステップの条件をトークンとして扱い、それらを画像トークン系列に直接追加する。デフォルトでは、4つのクラストークンと1つの時間ステップトークンを使用する。副産物として、この修正により文脈内DiTのモデルサイズはAdaLN-zeroバージョンの約 $\frac{2}{3}$ に削減される。

訓練を加速するため、我々は大規模バッチサイズ（例えば、2048）を使用し、訓練を安定させるためにいくつかの改善を実装する：(1) 時間ステップトークンを使用する代わりに、画像トークン埋め込みに時間ステップ埋め込みを加えることで拡散時間ステップを注入する；(2) [11]の実践に従い、自己注意層内でヘッドごとのQK層正規化を適用する；(3) 訓練中に学習率のウォームアップ段階を組み込む。

我々の新しい設計の影響は表1に示されている。当初、[44]からの元の文脈内DiTはAdaLN-zeroバージョンよりも著しく性能が劣っていた。我々の改訂された訓練レシピは性能を21.94 FIDに改善する。時間ステップ埋め込みとヘッドごとのQK正規化を組み込むことでさらに性能が向上し、18.66のFIDを達成する。学習率のウォームアップを追加することで、さらなる改善が得られる。全体として、我々の最終的な文脈内DiT-L/2モデルは、概念的にはシンプルであるが、13.78のFID-10kに到達し、[44]の最高性能のDiT-XL/2モデル（12.92 FID-10k）に匹敵する。これは大規模バッチサイズで安定して訓練できる堅牢なベースラインとして機能する。

	FID10k $\downarrow$
#AR steps	$S_{\text{eval}}$ = 1	$S_{\text{eval}}$ = 2	$S_{\text{eval}}$ = 4	$S_{\text{eval}}$ = 8
$S_{\text{train}}$ = 1	13.78	356.69	404.67	390.18
$S_{\text{train}}$ = 2	16.69	14.77	47.49	136.04
$S_{\text{train}}$ = 4	24.14	15.37	18.13	33.14
$S_{\text{train}}$ = 8	54.08	24.49	22.66	20.01
$S_{\text{train}}$ = 256	313.28	321.62	261.26	192.25
random	21.31	22.17	23.54	25.05

表2: ARステップに関するアブレーション。

S_{\text{train}}

と

S_{\text{eval}}

は、訓練と推論時にそれぞれ使用される固定ARステップを示す。ベースライン設定は下線で示され、選択された設定は灰色で強調表示されている。

	FID10k $\downarrow$
ratio	$S_{\text{eval}}$ = 1	$S_{\text{eval}}$ = 2	$S_{\text{eval}}$ = 4	$S_{\text{eval}}$ = 8
1.0	21.31	22.17	23.54	25.05
0.95	14.49	17.78	19.79	23.93
0.9	12.89	15.57	18.83	22.72
0.85	12.94	15.54	19.12	23.46
0.8	12.78	15.42	19.38	23.78

(a)

Patch order	FID10k $\downarrow$
raster order	14.46
block-wise raster (8x8)	14.76
block-wise raster (4x4)	14.62
dilated order	15.54
random order	12.89

(b)

	FID10k $\downarrow$
weight	$S_{\text{eval}}$ = 1	$S_{\text{eval}}$ = 2	$S_{\text{eval}}$ = 4
1 $\rightarrow$ 1	12.89	15.57	18.83
1.5 $\rightarrow$ 1	12.61	15.49	18.32
2 $\rightarrow$ 1	12.13	15.15	18.09
2.5 $\rightarrow$ 1	12.32	15.22	17.99
3 $\rightarrow$ 1	12.50	15.28	17.92

(c)

表3: ARステップの減衰、順序付け、およびAR重み付けに関するアブレーション。ベースライン設定は下線で示され、選択された設定は灰色で強調表示されている。

CausalFusion with fixed number of AR steps.

In-context DiTベースラインを基に、我々はまず、訓練と推論の両方で固定数のAR段階 $S$ を使用し、各AR段階で予測されるトークン数を $|\kappa_{s}|=\frac{L}{S}$ に固定したCausalFusionの簡略版から始める。具体的には、入力シーケンスにクリーンな画像トークンを含めるように変更し、注意モジュール内で一般化された因果的注意マスクを使用する。図3はDiTとCausalFusionの構造的な違いを示している。我々は、異なるAR段階数、すなわち $S$ = 1, 2, 4, 8, 256で複数のCausalFusionモデルを訓練する。ここで、 $S$ = 1はIn-context DiTを示し、 $S$ = 256は $L$ と等価で、純粋なAR訓練モードを表す。これらのモデルを評価するために、我々はまず訓練時と同じ数のAR段階を使用し、さらに他のAR段階数への一般化性能を研究する。

表2に示されているように、固定AR段階で訓練されたCausalFusionは他の推論設定に対して堅牢に転移できない。例えば、全てのモデルは推論設定が訓練と一致しない場合、大幅に性能が低下する。各訓練設定の最良の評価結果を比較すると、AR段階数を増やすと性能が大幅に低下することが分かる。具体的には、8段階のCausalFusionはFID 20.01を示し、In-context DiTが達成したFID 13.78を明らかに下回っている。しかし、図4(a)の損失曲線からは逆の傾向が観察され、AR段階数が多いモデルは一貫して少ない段階数のモデルよりも低い損失値を示している。これは、AR段階数が増えるにつれて学習タスクが過度に単純化されていることを示唆している。

CausalFusion with random number of AR steps.

さらに、我々はAR段階数 $S$ を1から $L$ までの間で一様にサンプリングし、各AR段階で $|\kappa_{s}|$ もランダムに設定するCausalFusionモデルを訓練した。我々は、上記と同様に、様々な推論設定でこのモデルを評価した。表2に示すように、この訓練設定は、固定AR段階で訓練されたものと比較して、異なる推論AR段階下で比較的一貫したパフォーマンスを示し、訓練時の柔軟性と推論時の汎用性の向上を実証している。しかしながら、この設定は依然としてIn-context DiTベースラインと比較して劣った結果をもたらしている。例えば、単一のAR段階（ $S$ = 1）を拡散モードとして評価した場合、FIDは21.31となる。図4(b)は、この挙動についてさらなる洞察を提供している。訓練中の一様なAR段階サンプリングが、非常に不均衡な $|\kappa_{s}|$ 分布をもたらすことを示している。結果として、訓練信号は非常に少数のトークンを持つAR段階に支配される—AR段階の95%以上が $|\kappa_{s}|\leq 16$ を持つ。これらの段階はAR軸に沿って一様に分布しており、モデルが可視的なコンテキストに過度に依存することを引き起こし、訓練タスクの複雑性を低下させている。

最後に、ランダムなAR段階で訓練されたCausalFusionモデルを用いて、検証セットにおける異なるAR段階によって生成される損失値を比較する。図4(c)に示すように、後期のAR段階は初期の段階よりもはるかに低い損失値を生成しており、AR軸に沿って訓練信号が消失する明確な傾向を示唆している。

5 Shaping task difficulties in CausalFusion

上記の観察に基づき、我々はCausalFusionにおける生成タスクの難易度を調整し、学習信号の影響のバランスを取り、因子化空間の徹底的な探索を確保することを目指す。デフォルトでは、様々な推論設定に一般化する効果があるため、学習中にランダムなAR（自己回帰）ステップを使用する。この設定を基に、我々はCausalFusion内でタスクの難易度を効果的に調整する複数の直接的なアプローチを特定し、これにより顕著な性能向上をもたらす。議論を2つの部分に分類する：ARステップのサンプリングの設計選択と、AR軸に沿った損失の重み付けである。

Random AR steps with decayed sampling.

ARステップ数 $S$ を $[1,L]$ から一様にサンプリングする代わりに、 $S$ が増加するにつれてサンプリング確率を指数関数的に減少させることを提案する。これにより、図4(b)に示すように、 $|\kappa|_{s}$ 分布の不均衡の問題が緩和される。結果として、大きな $|\kappa_{s}|$ が学習シーケンスでより頻繁に出現し、より少ない可視コンテキストに基づいてより多くのトークンが予測される。我々はハイパーパラメータ $\gamma$ $\leq$ 1を導入して指数減衰率を制御する。ここで $\gamma$ = 1は一様にサンプリングされたARステップで学習された素朴なCausalFusionモデルを表し、 $\gamma$ = 0は我々のIn-context DiTベースラインを表す。表3(a)から、 $\gamma$ を1.0から0.95に減少させることで、すべての推論設定で顕著な性能向上が得られ、 $S_{\text{eval}}$ = 1および2の場合にそれぞれ約7ポイントと5ポイントの向上が見られる。さらに、 $\gamma$ = 0.9の場合、CausalFusionは純粋な拡散推論モードを使用する強力なIn-context DiTを上回り、他の推論設定での性能もさらに向上する。 $\gamma$ の値を0.8などのより小さな値にすると、1 ARステップ評価でさらに良い性能が得られるが、我々はすべての推論設定で均衡の取れた改善を提供するため、デフォルト値を0.9に設定する。

		256 $\times$ 256, w/o CFG				256 $\times$ 256, w/ CFG				512 $\times$ 512, w/ CFG
	Params	FID $\downarrow$	IS $\uparrow$	Pre. $\uparrow$	Rec. $\uparrow$	FID $\downarrow$	IS $\uparrow$	Pre. $\uparrow$	Rec. $\uparrow$	FID $\downarrow$	IS $\uparrow$	Pre. $\uparrow$	Rec. $\uparrow$
GIVT [63]	304M	5.67	-	0.75	0.59	3.35	-	0.84	0.53	2.92	-	0.84	0.55
MAR-B [34]	208M	3.48	192.4	0.78	0.58	2.31	281.7	0.82	0.57	-	-	-	-
LDM-4 [50]	400M	10.56	103.5	0.71	0.62	3.6	247.7	0.87	0.48	-	-	-	-
CausalFusion-L	368M	5.12	166.1	0.73	0.66	1.94	264.4	0.82	0.59	-	-	-	-
MAR-L [34]	479M	2.6	221.4	0.79	0.60	1.78	296.0	0.81	0.60	1.73	279.9	-	-
ADM [13]	554M	10.94	-	0.69	0.63	4.59	186.7	0.82	0.52	3.85	221.7	0.84	0.53
DiT-XL [44]	675M	9.62	121.5	0.67	0.67	2.27	278.2	0.83	0.57	3.04	240.8	0.84	0.54
SiT-XL [42]	675M	8.3	-	-	-	2.06	270.3	0.82	0.59	2.62	252.2	0.84	0.57
ViT-XL [22]	451M	8.10	-	-	-	2.06	-	-	-	-	-	-	-
U-ViT-H/2 [1]	501M	6.58	-	-	-	2.29	263.9	0.82	0.57	4.05	-	-	-
MaskDiT [73]	675M	5.69	178.0	0.74	0.60	2.28	276.6	0.80	0.61	2.50	256.3	0.83	0.56
RDM [59]	553M	5.27	153.4	0.75	0.62	1.99	260.4	0.81	0.58	-	-	-	-
CausalFusion-XL	676M	3.61	180.9	0.75	0.66	1.77	282.3	0.82	0.61	1.98	283.2	0.83	0.58

表4: ImageNetのクラス条件付き生成に関するシステム性能の比較。灰色のブロックでマークされた数字は、推論中に温度サンプリングを使用している。

Loss weighting along AR axis.

我々は式(4)の重み付け項 $w(\cdot)$ を修正し、AR ステップ $s$ をさらに考慮に入れる。実際には、 $w(s,t)$ を $s=1$ において事前に定義された値 $\lambda\geq 1$ に単純に設定し、 $s=S$ で1まで線形に減衰させ、異なる $t$ に対して一定の重みを使用し続ける。このようにして、モデルは初期のARステップまたはより大きなノイズレベルにおける困難な生成タスクにより焦点を当てるよう訓練される。我々は表3(c)で $\lambda$ の影響を分析する。表から、 $\lambda$ を適切な値に設定することでパフォーマンスが向上することがわかる。直感的には、モデルがAR軸の終わりに近づくにつれて、可視コンテキストにおける高い局所性[65]により、タスクが容易になり、一部の生成タスクが局所的な特徴の補間に劣化する。対照的に、初期のARステップでの予測は、視覚的コンテキスト内の非局所的な依存関係の学習を促進し、これは生成モデリングに有益である。

Difficulty vs. locality.

局所性の仮説は、表3(b)での我々の観察と一致している。そこでは、訓練中にCausalFusionでランダムな順序を使用することが、手動で割り当てられた順序を大きく上回るパフォーマンスを示している。具体的には、固定の（ブロック単位の）ラスター順序を使用すると、モデルが局所的なトークンに過度に依存するようになり、訓練タスクが容易になる。対照的に、CausalFusionはデフォルトでランダムな順序で訓練され、最小の帰納バイアスの原則に従っている。この設計は、固定の順序の事前知識に依存するのではなく、柔軟な推論順序を可能にしながら、モデルが堅牢な生成モデリング能力を開発することを促進する。

6 Performance comparison

	Type	Tokenizer	Params	Training Epoch	Sampler (Steps)	Sampling tricks	FID $\downarrow$
Open-MAGVIT2-L [41]	AR	MAGVIT2	800M	300	AR(256)	N/A	2.51
Open-MAGVIT2-XL [41]	AR	MAGVIT2	1.5B	300	AR(256)	N/A	2.33
LlamaGen-3B [56]	AR	custom	3.1B	-	AR(256)	N/A	2.18
VAR-d24 [60]	VAR	custom	1B	350	VAR	N/A	2.09
VAR-d30 [60]	VAR	custom	2B	350	VAR	reject sampling	1.73
Simple-diffusion [27]	Diffusion	N/A	2B	800	DDPM	N/A	2.44
FiTv2-3B [66]	Diffusion	SD	3B	256	DDPM(250)	N/A	2.15
VDM++ [30]	Diffusion	N/A	2B	-	EDM	-	2.12
Large-DiT-7B [20]	Diffusion	SD	3B	435	DDPM(250)	N/A	2.10
Flag-DiT-3B [20]	Diffusion	SD	3B	256	adaptive Dopri-5	N/A	1.96
DiT-MoE-XL/2-8E2A [18]	Diffusion	SD	16B	$\approx$ 1000	DDPM(250)	N/A	1.72
DiMR-G/2R [38]	Diffusion	SD	1.1B	800	DPM-solver(250)	N/A	1.63
DART-XL [21]	AR+Diffusion	LDM	812M	-	AR(256)+FM(100)	$\tau$ sampling	3.98
MonoFormer [72]	AR+Diffusion	SD	1.1B	-	DDPM(250)	N/A	2.57
BiGR-XL-d24 [23]	AR+Diffusion	custom	799M	400	AR(256)+DDPM(100)	$\tau$ sampling	2.49
BiGR-XXL-d32 [23]	AR+Diffusion	custom	1.5B	400	AR(256)+DDPM(100)	$\tau$ sampling	2.36
MAR-H [34]	AR+Diffusion	custom	943M	800	AR(256)+DDPM(100)	$\tau$ sampling	1.55
CausalFusion-H	Diffusion	custom	1B	800	DDPM(250)	N/A	1.64
CausalFusion-H	Diffusion	custom	1B	800	DDPM(250)	CFG interval	1.57

表5: 256

\times

256のImageNet生成におけるシステム性能比較。以前に報告された大規模モデルとの比較である。

Class-conditional image generation.

我々は、最終的な手法をImageNetのクラス条件付き生成ベンチマークで評価する。システムレベルの比較では、クラス条件をエンコードするために64個のトークンを使用する。クラストークン数の変更の影響については、付録Bで分析している。我々は3つのサイズのCausalFusionモデルを訓練する：CausalFusion-L（368M）、CausalFusion-XL（676M）、CausalFusion-H（1B）。すべてのモデルはバッチサイズ2048で800エポック訓練される。デフォルトでは、DiT [44]と同様に、250ステップのDDPMを用いた単一のAR推論ステップを使用し、既存モデルとのベンチマーキングにはFID-50kを報告する。詳細なハイパーパラメータは付録Cに記載されている。表4に示すように、256 $\times$ 256の画像生成において、CausalFusion-Lはクラスフリーガイダンス[25]（CFG）なしでFID-50kが5.12を達成し、パラメータ数が50%少ないにもかかわらずDiT-XL/2を4.5ポイント上回っている。CausalFusion-XLはこの結果をさらに3.61に改善し、CFGを使用した場合、DiTやSiTなどの強力なベースラインを大きく上回る1.77という最先端の結果を達成している。さらに、CausalFusion-XLは高解像度生成においても効果を示し、512 $\times$ 512の画像でCFGを使用してFID 1.98を達成している。

我々は表5で既存手法とのシステムレベルの比較も提供している。CausalFusion-Hは標準的な250ステップのDDPMサンプラーを使用してFID 1.64を達成し、FiTv2-3B [66]やLarge-DiT-7B [20]などのより大きなモデルサイズを持つ以前の拡散モデルを上回り、DiMR-G/2Rがより強力なサンプラー（DPM-solver [51]）を使用しているにもかかわらず、比較可能な結果（1.64対1.63）を達成している。CFG間隔[32]アプローチを適用することで、CausalFusion-HはさらにFID 1.57に改善し、ImageNet 256 $\times$ 256ベンチマークにおいて最高性能のモデルの1つとなっている。

	Source	Size	FID30k $\downarrow$	CIDEr $\uparrow$
Transfusion-L [75]	IN1KCap	1M	8.1	34.5
CausalFusion-L	IN1KCap	1M	7.1	47.9

(a)

	Params	Data	Size	FID10k $\downarrow$	Acc $\uparrow$	CIDEr $\uparrow$
DiT [44]	458M	IN1K	1M	18.2	83.5	94.4
CausalFusion	368M	IN1K	1M	11.8	84.2	98.0
CausalFusion^†	368M	IN1K	1M	9.3	84.7	103.2

(b)

表6: (a) Transfusion [75]との知覚および生成ベンチマークにおける比較。すべてのモデルは同じ事前学習データを用いて同じ設定で訓練されている。(b) DiT [44]との知覚および生成ベンチマークにおける比較。

\dagger

でマークされたモデルは[34]のVAEを用いて訓練され、ノイズではなく潜在変数を予測する損失関数を使用している。

Zero-shot image editing.

CausalFusionは、ランダムに選択された可視画像トークンの部分集合に基づいて、画像トークンのランダムな部分集合を予測するように訓練されているため、自然にゼロショット画像編集をサポートしている。この本質的な柔軟性により、タスク特有の微調整を必要とせずに、局所的な編集を実行することが可能となる。図2(b)に示すように、我々のモデルは、ImageNetのクラス条件付き生成タスクでのみ事前訓練されていても、高品質な編集結果を生成することができ、編集タスクに対する堅牢性と適応性を示している。さらに、CausalFusionのデュアル因子化設計により、文脈の一貫性と高忠実度の更新のバランスを取ることができ、編集された領域が周囲のコンテンツにシームレスに溶け込むことを保証している。多様な編集シナリオに対するモデルの能力を示す追加の可視化については、付録Dを参照されたい。

Vision-Language joint modeling.

CausalFusionは、GPT [46]と同様に、テキストに対して別個の次トークン予測損失を適用することで言語モダリティを統合し、画像とテキストデータの両方を共同でモデル化することができる。この実験では、CausalFusionはテキストから画像（T2I）生成と画像キャプション生成の2つのタスクを同時に学習した。学習中、90%のケースでテキストが画像に先行し、T2Iタスクとして設定され、画像損失のみが適用される。残りのケースでは、テキストが画像に続き、画像キャプション生成のためのテキスト損失とT2Iにおけるクラシファイアフリーガイダンス [25] のための画像損失の両方が適用される。このとき、テキスト損失は画像損失に対して0.01の重みづけがされる。

我々は前節の設定と学習/推論プロトコルに従う。言語トークン化には、LLaMA-3 [16] トークナイザーを使用する。モデルは、Qwen2VL-7B [64] によって生成された10個のキャプションで各画像にラベル付けされた、再キャプション化されたImageNetデータセットで学習される。T2Iと画像キャプション生成タスクは、それぞれゼロショットMSCOCO-30k FIDとKarpathyのテスト分割におけるゼロショットMSCOCO CIDErを用いて評価される。我々はCausalFusionを、画像に対する標準的な拡散損失とテキストに対する次トークン予測損失を用いて言語と視覚のモデリングを統合する現代的なマルチモーダルモデルであるTransfusion [75] と比較する。Transfusionでは、言語トークンは拡散ノイズが加えられた画像埋め込みに条件付けられる。Transfusionはオープンソース化されていないため、我々は原論文に基づいて実装し、モデルアーキテクチャ、VAEエンコーダー、言語トークナイザーをCausalFusionで使用されているものと揃えた。 240エポックの学習結果を表 6(a)に示す。Transfusionと比較して、CausalFusionはテキストから画像生成と画像キャプション生成の両方で優れた性能を示し、マルチモーダルタスクの基盤モデルとしての強力な可能性を強調している。図 6では、単一の事前学習されたCausalFusion XLモデルが、上部でテキストから画像生成を、下部で画像からテキスト生成（画像キャプション生成）を実行している様子を示している。データ、モデル設計、ハイパーパラメータを含むさらなる実験の詳細は、付録 C に記載されている。

Visual Representation Learning.

我々はさらに、表現学習の観点からCausalFusionモデルを評価する。具体的には、256 $\times$ 256のImageNetクラス条件付き生成タスクで事前学習されたCausalFusionモデルを活用し、ImageNet分類タスクとMSCOCOキャプショニングタスクでファインチューニングを行う。画像分類については、CausalFusionの最終層から平均プーリングされた特徴量を使用し、線形分類器を適用する。画像キャプショニングについては、CausalFusionの上に小規模なTransformerエンコーダ-デコーダモジュールを言語ヘッドとして追加する。事前学習されたCausalFusionモデルは、前述のセクションで説明されたデフォルト設定に従う。我々は、同じエポック数で事前学習されたDiT-L/2モデルと比較する。ファインチューニングの詳細なハイパーパラメータは付録Cに記載されている。表6(b)に示されているように、我々のCausalFusionモデルはすべてのファインチューニングタスクでDiTを上回る性能を示しており、CausalFusionがDiTと比較してより優れた表現を学習していることを示唆している。我々は、CausalFusionにおけるランダムグループ化トークン拡散メカニズムが、部分的に観測された入力で画像を拡散させることにより、暗黙的にマスクされた表現予測[24, 67]として機能し、モデルの表現学習能力を向上させていると推測する。

7 Conclusion

我々は、CausalFusionを提案する。これは、自己回帰（AR）と拡散のパラダイムを、逐次トークンと拡散ノイズレベルにわたる二重因子化フレームワークを通じて統合するデコーダーのみのトランスフォーマーである。このアプローチは、ImageNet生成ベンチマークにおいて最先端の性能を達成し、任意の長さのトークン生成をサポートし、ARモードと拡散モードの間のスムーズな遷移を可能にする。CausalFusionはまた、画像生成とキャプション生成の共同タスク、さらにはゼロショット画像操作を含むマルチモーダル能力も実証している。本稿のフレームワークは、拡散モデルとARモデルの統一学習に関する新しい視点を提供するものである。

Appendix A Generalized Causal Attention

我々はCausalFusionモデルのために一般化因果的注意を設計した。その核心的なアイデアは、すべてのAR（自己回帰）ステップにわたって因果関係を維持しつつ、各ARステップが先行するARステップからのクリーンな画像トークンのみに依存することを保証することである。この設計により、CausalFusionは次トークン(群)拡散パラダイムを用いて画像を生成することができる。図7に一般化因果的注意マスクの例を示し、アルゴリズム1に一般化因果的マスクを取得するためのPyTorchスタイルの疑似コードを示す。

Appendix B More Analyses

Diffusion time steps sampling.

DiT [44]に倣い、我々は訓練中にランダムに拡散時間ステップ $t$ をサンプリングする。デフォルトでは、CausalFusionモデルの訓練時に全てのARステップで同じ $t$ が使用される。ここでは、訓練中に異なるARステップで異なる $t$ 値を使用することの影響を探る。訓練と評価の設定は第4節と一貫している。表7に示すように、共有またはランダムな $t$ 値を使用しても同様の性能が得られ、CausalFusionがこの変動に対して頑健であることを示している。さらに、各ARステップで複数の拡散時間ステップをサンプリングする設定を評価する。具体的には、4つおよび8つの異なる時間ステップをサンプリングし、損失計算に使用されるトークンの総数を一定に保つために、バッチサイズをそれぞれ4 $\times$ および8 $\times$ 分の1に減少させる実験を行う。表に示すように、ARステップごとに複数の拡散時間ステップを使用してもデフォルト設定と同等の性能が得られ、CausalFusionがこの要因に対してさらに頑健であることを示している。注目すべきは、このアプローチでは、各ARステップでのクリーンな画像トークン $\mathbf{x}_{0,\kappa{s}}$ を一度だけ計算し、異なる $t$ 値を持つ複数の $\mathbf{x}_{t,\kappa_{s}}$ 間で共有できることである。結果として、訓練中にクリーンな画像トークンによって導入される追加の計算コストは最小限に抑えられ、わずか $\sim$ 10%に留まる。

アルゴリズム1 一般化された因果マスク

⬇

def get_attn_mask(ctx_len, x_len, step):

# tx_len: クリーントークンの長さ

# x_len: ノイズトークンの長さ

# step: ARステップ数

# ARステップごとにランダムトークンをサンプリング

sumk = random.sample(range(1, x_len), step - 1)

sumk = [0] + sorted(sumk) + [x_len]

# '因果'マスクを構築

seq_len = ctx_len + x_len

attn_mask = torch.ones(size=(seq_len, seq_len))

m1 = torch.ones(size=(ctx_len, ctx_len))

m2 = torch.ones(size=(x_len, ctx_len))

m3 = torch.ones(size=(x_len, x_len))

for i in range(len(sumk) - 2):

m1[sumk[i]:sumk[i+1], 0:sumk[i+1]] = 0

m2[sumk[i+1]:sumk[i+2], 0:sumk[i+1]] = 0

for i in range(len(sumk) - 1):

m3[sumk[i]:sumk[i+1], sumk[i]:sumk[i+1]] = 0

attn_mask[:ctx_len, :ctx_len] = m1

attn_mask[ctx_len:, :ctx_len] = m2

attn_mask[ctx_len:, ctx_len:] = m3

return attn_mask # 1はマスク、 0はマスク解除

	FID10k
shared $t$ for different AR steps	12.13
random $t$ for different AR steps	12.27
4 $\times$ $t$ for each AR step	12.19
8 $\times$ $t$ for each AR step	12.23

表7: 拡散時間ステップのサンプリング戦略は性能に影響を与えない。デフォルト設定は下線で示されている。

#class tokens	params (M)	FID10k
4	308 (+3.9)	12.13
16	320 (+15.6)	12.04
64	368 (+62.5)	11.84
1 (repeat 64 $\times$ )	305 (+1.0)	12.29
4 (repeat 16 $\times$ )	308 (+ 3.9)	11.75

表8: #クラストークンは性能とパラメータ数のトレードオフを提供する。デフォルト設定は下線で示されている。

Class condition tokens.

第4節および第6節で議論したように、我々はアブレーション研究のために4つのクラス条件トークンを、システムレベルの比較のために64のトークンを使用している。ここでは、CausalFusionフレームワークにおけるクラストークン数の影響を検討する。表8に示すように、クラストークン数を64に増やすと、性能がわずかに向上する（FID 12.13対11.84）。しかし、これにより62.5Mのパラメータが追加され、304Mのパラメータを持つCausalFusion-Lモデルにとっては大幅な増加（20%）となる。この問題に対処するため、我々は[34]からトークン反復戦略を採用し、パラメータ数を増やすことなく同等の性能（FID 11.75対11.84）を達成した。この発見は、クラス条件付けに割り当てられる計算がそれに専念するパラメータ数よりも重要であることを示唆している。

Appendix C Implementation Details

Class-conditional image generation.

表9において、我々は第4節および第5節のクラス条件付き画像生成のためのCausalFusionモデルの詳細な設定を提供する。

config	value
image resolution	256 $\times$ 256
hidden dimension	1024
#heads	16
#layers	24
#cls tokens	4
patch size	2
positional embedding	sinusoidal
VAE	SD [55]
VAE donwsample	8 $\times$
latent channel	4
optimizer	AdamW [39]
base learning rate	1e-4
weight decay	0.0
optimizer momentum	$\beta_{1},\beta_{2}{=}0.9,0.95$
batch size	2048
learning rate schedule	constant
warmup epochs	40
training epochs	240
augmentation	horizontal flip, center crop
diffusion sampler	DDPM [26]
diffusion steps	250
evaluation suite	ADM [13]
evaluation metric	FID-10k

表9: アブレーション研究の構成。

System-level comparisons.

表10において、我々は第6節のシステムレベルの比較のためのCausalFusionモデルの詳細な設定を提供する。

config	value
hidden dimension	1024 (L), 1280 (XL), 1408 (H)
#heads	16 (L), 20 (XL), 22 (H)
#layers	24 (L), 32 (XL), 40 (H)
#cls tokens	64
positional embedding	learnable
VAE	mar [34]
VAE donwsample	16 $\times$
latent channel	16
optimizer	AdamW [39]
base learning rate	1e-4
weight decay	0.0
optimizer momentum	$\beta_{1},\beta_{2}{=}0.9,0.95$
batch size	2048
learning rate schedule	constant
warmup epochs	40
training epochs	800
augmentation	horizontal flip, center crop
diffusion sampler	DDPM [26]
diffusion steps	250
evaluation suite	ADM [13]
evaluation metric	FID-50k

表10: システムレベルの比較構成。

Multi-modal CausalFusion.

表11において、我々は第6節のCausalFusionとTransfusionの両実験の詳細な実験ハイパーパラメータを提供する。訓練データセットは、ImageNetの各画像に対して10個のキャプションを追加して拡張されている。これらのキャプションはQwen2VL-7B-Instruct [64]を用いて、以下のプロンプトで生成された：

あなたは画像キャプショナーです。COCOスタイルで画像を説明する必要があります。COCOスタイルは短いです。以下にCOCOスタイルの説明の例をいくつか示します： '合法的に駐車された車の後ろに違法に駐車されているように見える車' 'これは青と白の浴室で、壁付きの洗面台と壁に救命浮輪がある。' 'ロースト用の鍋に展示された野菜と果物を添えた肉。' 'オープンな即席のフィールドで野球をしている男性のグループ。'

config	value
image resolution	256 $\times$ 256
hidden dimension	1024
#heads	16
#layers	24
#max text tokens	35
patch size	2
image positional embedding	sinusoidal
text positional embedding	learnable
VAE	SD [55]
VAE donwsample	8 $\times$
latent channel	4
optimizer	AdamW [39]
base learning rate	1e-4
text loss coefficient	0.01
weight decay	0.0
optimizer momentum	$\beta_{1},\beta_{2}{=}0.9,0.95$
batch size	2048
learning rate schedule	constant
warmup epochs	40
training epochs	240
augmentation	horizontal flip, center crop
diffusion sampler	DDPM [26]
diffusion steps	250
generation eval. metric	MSCOCO 0-shot FID-30k
captioning eval. metric	MSCOCO CIDEr (Karpathy test)

表11: CausalFusionとTransfusionの両方のマルチモーダル実験構成。

Fine-tuning for ImageNet classification.

我々のCausalFusionモデルをImageNet分類のためにファインチューニングする際、クラストークンを除いて、Vision Transformer (ViT) [15]の基本的なアーキテクチャに従う。追加のタイムステップ埋め込み、ラベル埋め込み、条件付き位置埋め込みは除外する。レイヤー正規化と線形分類層を平均化された出力トークンに適用する。ハイパーパラメータに関しては、表12に詳述されているMAEトレーニングレシピ[24]に従うが、トレーニング中の安定性を向上させるためにBFloat16精度を使用する。

config	value
optimizer	AdamW
base learning rate	1e-3 (L)
weight decay	0.05
optimizer momentum	$\beta_{1},\beta_{2}{=}0.9,0.999$
layer-wise lr decay [9, 2]	0.85 (L)
batch size	1024
learning rate schedule	cosine decay
warmup epochs	5
training epochs	50 (L)
augmentation	RandAug (9, 0.5) [10]
label smoothing [58]	0.1
erasing [74]	0.25
mixup [71]	0.8
cutmix [69]	1.0
drop path [28]	0.1 (L)

表12: ImageNet分類のエンドツーエンドファインチューニング設定

Fine-tuning for MSCOCO captioning.

我々は、FLIPのCOCOキャプションファインチューニングセットアップ[35]に従い、3層のトランスフォーマーエンコーダーと3層のトランスフォーマーデコーダー（幅384と6つの注意ヘッド）からなる追加のキャプションヘッドを組み込む。このキャプションヘッドは、CausalFusionまたはDiTからの画像特徴を入力として受け取る。我々は、CausalFusionとDiTの14層目、21層目、24層目からの画像特徴を評価し、最高のパフォーマンスを達成する層を選択する。モデルはKarpathyのトレーニング分割で20エポックにわたってファインチューニングされる。

config	value
optimizer	AdamW
caption head lr	1e-4
other parameters lr	1e-5
weight decay	0.01
dropout	0.1
optimizer momentum	$\beta_{1},\beta_{2}{=}0.9,0.999$
batch size	256
learning rate schedule	cosine decay
warmup epochs	2
training epochs	20

表13: MSCOCOキャプショニングのエンドツーエンドファインチューニング設定

Appendix D Additional Samples

我々のCausalDiffusionモデルによるゼロショット編集の結果をさらに図8と9に示す。編集結果は、まず初期のクラスラベルを用いて元の画像を生成し、次に画像の一部をマスクし、マスクされていない領域と新しいクラスラベルを条件として再生成することで達成される。例えば、図8の最初の例では、「火山」の画像がまず生成される。その後、画像の外側の領域がマスクされ、「テレビ」、「引き戸」、「車のミラー」などの新しいラベルで新しい画像が再生成される。

さらに、我々のCausalDiffusion-XLモデルからの選別されていないサンプルを512 $\times$ 512および256 $\times$ 256の解像度で示す。図18から23は、様々なクラシファイアフリーガイダンススケールとクラスラベルの下でのサンプルを表示している。

References

Bao et al. [2023] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 22669–22679, 2023.
Bao et al. [2021] Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. Beit: Bert pre-training of image transformers. In International Conference on Learning Representations, 2021.
Bengio et al. [2015] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. Scheduled sampling for sequence prediction with recurrent neural networks. Advances in neural information processing systems, 28, 2015.
Brooks et al. [2024] Tim Brooks, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, and Eric Luhman. Video generation models as world simulators. OpenAI Blog, 2024.
Brown et al. [2020] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Chang et al. [2022] Huiwen Chang, Han Zhang, Lu Jiang, Ce Liu, and William T Freeman. Maskgit: Masked generative image transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11315–11325, 2022.
Chang et al. [2023] Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, José Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T Freeman, Michael Rubinstein, et al. Muse: Text-to-image generation via masked generative transformers. In Proceedings of the 40th International Conference on Machine Learning, pages 4055–4075, 2023.
Chen et al. [2024] Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, and Zhenguo Li. Pixart- $\backslash$ sigma: Weak-to-strong training of diffusion transformer for 4k text-to-image generation. arXiv preprint arXiv:2403.04692, 2024.
Clark et al. [2020] Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. Electra: Pre-training text encoders as discriminators rather than generators. In International Conference on Learning Representations, 2020.
Cubuk et al. [2020] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical automated data augmentation with a reduced search space. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 702–703, 2020.
Dehghani et al. [2023] Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Peter Steiner, Mathilde Caron, Robert Geirhos, Ibrahim Alabdulmohsin, et al. Scaling vision transformers to 22 billion parameters. In International Conference on Machine Learning, pages 7480–7512. PMLR, 2023.
Deng et al. [2009] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
Dhariwal and Nichol [2021] Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021.
Ding et al. [2021] Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, and Jie Tang. Cogview: Mastering text-to-image generation via transformers. Advances in neural information processing systems, 34:19822–19835, 2021.
Dosovitskiy et al. [2021] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021.
Dubey et al. [2024] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv:2407.21783, 2024.
Esser et al. [2024] Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first International Conference on Machine Learning, 2024.
Fei et al. [2024] Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, and Junshi Huang. Scaling diffusion transformers to 16 billion parameters. arXiv preprint arXiv:2407.11633, 2024.
Gafni et al. [2022] Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv Taigman. Make-a-scene: Scene-based text-to-image generation with human priors. In European Conference on Computer Vision, pages 89–106. Springer, 2022.
Gao et al. [2024] Peng Gao, Le Zhuo, Ziyi Lin, Chris Liu, Junsong Chen, Ruoyi Du, Enze Xie, Xu Luo, Longtian Qiu, Yuhang Zhang, et al. Lumina-t2x: Transforming text into any modality, resolution, and duration via flow-based large diffusion transformers. arXiv preprint arXiv:2405.05945, 2024.
Gu et al. [2024] Jiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, and Shuangfei Zhai. Dart: Denoising autoregressive transformer for scalable text-to-image generation. arXiv preprint arXiv:2410.08159, 2024.
Hang et al. [2023] Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, and Baining Guo. Efficient diffusion training via min-snr weighting strategy. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7441–7451, 2023.
Hao et al. [2024] Shaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, and Kwan-Yee K Wong. Bigr: Harnessing binary latent codes for image generation and improved visual representation capabilities. arXiv preprint arXiv:2410.14672, 2024.
He et al. [2022] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 16000–16009, 2022.
Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.
Hoogeboom et al. [2023] Emiel Hoogeboom, Jonathan Heek, and Tim Salimans. simple diffusion: End-to-end diffusion for high resolution images. In International Conference on Machine Learning, pages 13213–13232. PMLR, 2023.
Huang et al. [2016] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger. Deep networks with stochastic depth. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14, pages 646–661. Springer, 2016.
Karras et al. [2022] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in neural information processing systems, 35:26565–26577, 2022.
Kingma and Gao [2024] Diederik Kingma and Ruiqi Gao. Understanding diffusion objectives as the elbo with simple data augmentation. Advances in Neural Information Processing Systems, 36, 2024.
Kondratyuk et al. [2024] Dan Kondratyuk, Lijun Yu, Xiuye Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, et al. Videopoet: A large language model for zero-shot video generation. In Forty-first International Conference on Machine Learning, 2024.
Kynkäänniemi et al. [2024] Tuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, and Jaakko Lehtinen. Applying guidance in a limited interval improves sample and distribution quality in diffusion models. arXiv preprint arXiv:2404.07724, 2024.
Labs [2024] Black Forest Labs. Flux, 2024.
Li et al. [2024] Tianhong Li, Yonglong Tian, He Li, Mingyang Deng, and Kaiming He. Autoregressive image generation without vector quantization. arXiv preprint arXiv:2406.11838, 2024.
Li et al. [2023] Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, and Kaiming He. Scaling language-image pre-training via masking. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 23390–23400, 2023.
Lin et al. [2014] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.
Lipman et al. [2023] Yaron Lipman, Ricky TQ Chen, Heli Ben-Hamu, Maximilian Nickel, and Matthew Le. Flow matching for generative modeling. In The Eleventh International Conference on Learning Representations, 2023.
Liu et al. [2024] Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, and Liang-Chieh Chen. Alleviating distortion in image generation via multi-resolution diffusion models. arXiv preprint arXiv:2406.09416, 2024.
Loshchilov [2017] I Loshchilov. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
Lu et al. [2024] Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, and Aniruddha Kembhavi. Unified-io 2: Scaling autoregressive multimodal models with vision language audio and action. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26439–26455, 2024.
Luo et al. [2024] Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, and Ying Shan. Open-magvit2: An open-source project toward democratizing auto-regressive visual generation. arXiv preprint arXiv:2409.04410, 2024.
Ma et al. [2024] Nanye Ma, Mark Goldstein, Michael S Albergo, Nicholas M Boffi, Eric Vanden-Eijnden, and Saining Xie. Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers. arXiv preprint arXiv:2401.08740, 2024.
Nichol et al. [2021] Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: Towards photorealistic image generation and editing with text-guided diffusion models. arXiv preprint arXiv:2112.10741, 2021.
Peebles and Xie [2023] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4195–4205, 2023.
Podell et al. [2024] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. In The Twelfth International Conference on Learning Representations, 2024.
Radford and Narasimhan [2018] Alec Radford and Karthik Narasimhan. Improving language understanding by generative pre-training. OpenAI blog, 2018.
Radford et al. [2019] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 2019.
Ramesh et al. [2021] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International conference on machine learning, pages 8821–8831. Pmlr, 2021.
Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv:2204.06125, 2022.
Rombach et al. [2022] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.
Sohl-Dickstein et al. [2015a] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015a.
Sohl-Dickstein et al. [2015b] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015b.
Song and Ermon [2019] Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. Advances in neural information processing systems, 32, 2019.
Song et al. [2021] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. In International Conference on Learning Representations, 2021.
StabilityAI [2024] StabilityAI. https://huggingface.co/stabilityai/sd-vae-ft-ema, 2024.
Sun et al. [2024a] Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, and Zehuan Yuan. Autoregressive model beats diffusion: Llama for scalable image generation. arXiv preprint arXiv:2406.06525, 2024a.
Sun et al. [2024b] Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative multimodal models are in-context learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14398–14409, 2024b.
Szegedy et al. [2016] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2818–2826, 2016.
Teng et al. [2023] Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, and Jie Tang. Relay diffusion: Unifying diffusion process across resolutions for image synthesis. arXiv preprint arXiv:2309.03350, 2023.
Tian et al. [2024] Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, and Liwei Wang. Visual autoregressive modeling: Scalable image generation via next-scale prediction. arXiv preprint arXiv:2404.02905, 2024.
Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv:2302.13971, 2023a.
Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv:2307.09288, 2023b.
Tschannen et al. [2025] Michael Tschannen, Cian Eastwood, and Fabian Mentzer. Givt: Generative infinite-vocabulary transformers. In European Conference on Computer Vision, pages 292–309. Springer, 2025.
Wang et al. [2024a] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, and Junyang Lin. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv:2409.12191, 2024a.
Wang et al. [2018] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018.
Wang et al. [2024b] ZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, et al. Fitv2: Scalable and improved flexible vision transformer for diffusion model. arXiv preprint arXiv:2410.13925, 2024b.
Wei et al. [2022] Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, and Christoph Feichtenhofer. Masked feature prediction for self-supervised visual pre-training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14668–14678, 2022.
Yu et al. [2022] Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, et al. Scaling autoregressive models for content-rich text-to-image generation. Transactions on Machine Learning Research, 2022.
Yun et al. [2019] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF international conference on computer vision, pages 6023–6032, 2019.
Zhan et al. [2024] Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, et al. Anygpt: Unified multimodal llm with discrete sequence modeling. arXiv:2402.12226, 2024.
Zhang et al. [2018] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. In International Conference on Learning Representations, 2018.
Zhao et al. [2024] Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, and Jingdong Wang. Monoformer: One transformer for both diffusion and autoregression. arXiv:2409.16280, 2024.
Zheng et al. [2023] Hongkai Zheng, Weili Nie, Arash Vahdat, and Anima Anandkumar. Fast training of diffusion models with masked transformers. arXiv preprint arXiv:2306.09305, 2023.
Zhong et al. [2020] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. In Proceedings of the AAAI conference on artificial intelligence, pages 13001–13008, 2020.
Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv:2408.11039, 2024.