JaLMS
最新の AI 研究を日本語で解読

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

Liao Qu, Huichao Zhangfootnotemark: , Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye,
Daniel K. Du, Zehuan Yuan, Xinglong Wu
ByteDance
https://byteflow-ai.github.io/TokenFlow/
Equal contributionproject lead
Abstract

我々は、マルチモーダル理解と生成の間の長年の隔たりを埋める新しい統一画像トークナイザー、TokenFlowを提案する。 先行研究では、これら2つのタスクを統合するために単一の再構成を目的としたベクトル量子化(VQ)エンコーダーを採用しようとしている。我々は、理解と生成には本質的に異なる粒度の視覚情報が必要であることを観察した。これは重要なトレードオフにつながり、特にマルチモーダル理解タスクにおけるパフォーマンスを損なう。 TokenFlowは、意味的特徴と画素レベルの特徴の学習を分離しつつ、共有マッピングメカニズムを通じてそれらの整合性を維持する革新的なデュアルコードブックアーキテクチャによってこの課題に対処する。 この設計により、理解タスクに不可欠な高レベルの意味表現と、生成に不可欠な細粒度の視覚特徴の両方に、共有インデックスを通じて直接アクセスすることが可能となる。 我々の広範な実験は、TokenFlowの複数の次元にわたる優位性を実証している。TokenFlowを活用することで、我々は離散的な視覚入力がLLaVA-1.5 13Bの理解性能を上回ることを初めて実証し、平均7.2%の改善を達成した。 画像再構成については、384×384の解像度でFIDスコア0.63という強力な結果を達成した。 さらに、TokenFlowは256×256の解像度でGenEvalスコア0.55を達成し、自己回帰型画像生成において最先端の性能を確立し、SDXLに匹敵する結果を達成した。

Refer to caption
図1: TokenFlowによるマルチモーダル理解の結果。我々は離散的な視覚入力がLLaVA-1.5 13Bの理解性能を上回ることを初めて実証し、平均7.2%の改善を達成した。

1 Introduction

Refer to caption
図2: TokenFlowによる視覚生成結果。様々なスタイル、主題、シナリオにわたる多様な256×256の結果を示している。

大規模言語モデル(LLM)は、統一された自己回帰フレームワークを通じて自然言語処理に革命をもたらし、多様なタスクにわたって顕著な能力を示している[1, 2]。 しかし、視覚と言語のマルチモーダル領域では、知覚と生成のパラダイム間に根本的な分断が依然として存在している。現在のアプローチは、これらを異なるアーキテクチャで扱っている:マルチモーダル理解モデルは視覚エンコーダーと投影層を活用して視覚表現を事前学習されたLLMと整合させ[29, 52]、一方で視覚生成は拡散ベースの手法[41, 39]か、自己回帰生成のための離散的な画像トークン[44, 65, 38, 51]に依存している。この分岐は、理解と生成の両方が可能な統一されたアプローチの追求を動機づけている。

GPT-4o[59]の出現により、より汎用的なマルチモーダルモデルの開発への関心が大きく高まっている。知覚と生成能力を統一する初期の試み[46, 27]は、主にLLMに拡散モデルの能力を付与することに焦点を当てていた。しかし、これらのアプローチは大幅なアーキテクチャの複雑さと計算オーバーヘッドを導入し、より優雅な統一ソリューションの必要性を浮き彫りにしている。 最近の取り組みでは、一つの有望な方向性が探求されている:単一のトランスフォーマーアーキテクチャを使用して、次のトークン予測フレームワーク内で視覚情報と言語情報を統一することである[55, 48]。このアプローチは、VQエンコーダーを使用して視覚入力をテキストと共に処理できる離散トークンに変換することに依存しており、潜在的により単純で効率的なフレームワークを提供している。両モダリティを離散トークンの配列として扱うことで、このフレームワークは単一のアーキテクチャ内でのエンドツーエンドの訓練を可能にしている。

しかしながら、このような統合的アプローチには根本的な課題が存在する。マルチモーダル理解は複雑な推論を支援するための豊かな意味表現を必要とする一方で、視覚的生成は空間構造とテクスチャの詳細の正確なエンコーディングを要求する。現在の手法は主に再構成を目的としたVQエンコーダー[73, 13]を採用しており、これらは主に再構成の忠実性のために最適化されている。この最適化は生成タスクには適しているが、理解タスクに不可欠な高レベルの意味的特徴を捉える能力を潜在的に制限する可能性がある。 Janus[57]は理解タスクと生成タスクに別々のエンコーダーを使用することでこの矛盾に対処しようとしているが、これはモデルの複雑性を増加させるだけで、根本的な表現の不一致を解決するものではない。 これらの制限は、知覚と生成の両方の目的に効果的に対応できる統一された視覚エンコーディングメカニズムの欠如という、この分野における重要なギャップを浮き彫りにしている。 これが我々の中心的な研究課題を動機づけている:単一の画像トークナイザーで、マルチモーダル理解と生成の両方に適した表現を導出することは可能か?

この課題に対処するため、我々はTokenFlowを提案する。TokenFlowは、独自のデュアルフロー設計を通じて理解と生成の間のギャップを埋める新しい統合型画像トークナイザーである。その鍵となる洞察は、意味的特徴とピクセルレベルの特徴の学習を分離しつつ、共有インデックスマッピングを通じてそれらの整合性を維持することである。意味的およびピクセルレベルの類似性を持つパッチを同一のインデックスにマッピングすることで、量子化された特徴を自己回帰的な視覚生成とマルチモーダル理解の両方に直接適用できる。 異なる特徴レベルを単一のコードブック内に制約する同時期のアプローチ[60]とは異なり、TokenFlowのデュアルコードブック設計は、共有インデックスを通じてクロスレベルの相関を維持しながら、専門化された学習を可能にする。この革新により、意味的表現とピクセルレベルの表現の両方に同時にアクセスできるようになり、どちらの側面も損なわれることがない。 具体的には、TokenFlowは対応する専門化されたコードブックと組み合わせたデュアルエンコーダアーキテクチャを採用している。CLIP形式の教師から学習された意味エンコーダは強力な意味的事前知識を提供し、ピクセルエンコーダは詳細な視覚情報を捉える。抽出された特徴は、意味的距離とピクセルレベルの距離の重み付け和を最小化することで量子化され、結合表現空間を作成する。

我々のフレームワークは顕著な拡張性を示し、13万以上のエントリを持つ大規模コードブックでも例外的なコードブック利用率(95%以上)を維持している - これは容量と効率の両面で先行アプローチ[13]を大幅に進歩させている。 TokenFlowはまた、384×384の解像度で0.63という強力なFIDスコアを達成している。 テキストから画像への合成において、我々は自己回帰パラダイムにおいて256×256解像度で0.55という新しい最先端のGenEvalスコアを確立し、EMU3[55]やLlamaGen[44]などの既存手法と比較して大幅に少ないサンプリングステップで実現している。 マルチモーダル理解ベンチマークでは、TokenFlowは最小限のトレーニングオーバーヘッドで新たな最先端の性能を達成し、LLaVA-1.5 13Bを平均7.2%上回っている - これは離散的な視覚入力がこの強力なベースラインを初めて上回ったことを示している。 これらの結果は、理解と生成タスク間の長年のギャップを埋める統合視覚トークナイザーとしてのTokenFlowの有効性を裏付けている。

Refer to caption
図3: TokenFlowの概要。我々は、デュアルエンコーダーと共有マッピングを持つコードブックを組み込み、高レベルのセマンティクスと低レベルのピクセル詳細の共同最適化を可能にしている。与えられた入力画像に対して、ピクセルレベルとセマンティックレベルのコードブックからそれぞれ距離dsemsubscript𝑑semd_{\text{sem}}italic_d start_POSTSUBSCRIPT sem end_POSTSUBSCRIPTdpixsubscript𝑑pixd_{\text{pix}}italic_d start_POSTSUBSCRIPT pix end_POSTSUBSCRIPTが計算される。最終的なコードブックインデックスと特徴は、重み付け和dsem+wdisdpixsubscript𝑑semsubscript𝑤dissubscript𝑑pixd_{\text{sem}}+w_{\text{dis}}\cdot d_{\text{pix}}italic_d start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT + italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPT ⋅ italic_d start_POSTSUBSCRIPT pix end_POSTSUBSCRIPTを最小化することで決定される。得られた量子化特徴は、セマンティックアラインメントと画像再構成トレーニングの両方に対して独立してデコードされ、その後、理解と生成におけるダウンストリームタスクのための統一された表現を提供するために連結される。

2 Related Work

2.1 Tokenization for Visual Generation.

ベクトル量子化(VQ)画像トークナイザーは、自己回帰型画像生成における最近の進歩において重要な役割を果たしてきた[65, 51, 44, 28, 34][54]はVQVAEを提案し、最も近いコードブックエントリを用いてパッチレベルの特徴を量子化し、コードブックはエンコーダ-デコーダ構造を通じて再構成損失によって学習される。VQVAE-2 [40]は、指数移動平均更新と階層的マルチスケールアプローチを通じてこのフレームワークを発展させた。VQGAN [13]は、敵対的損失と知覚的損失を組み込むことでアーキテクチャをさらに強化し、より正確で詳細な表現を生み出した。 VQトークナイザーにおける最近の進歩は、主に3つの方向に焦点を当てている:再構成の忠実度と生成品質の向上[64, 21, 73]、コードブック利用の改善[64, 70, 76]、そして画像の次のスケール予測のためのマルチスケールVQVAE [51, 25]などの新しいアーキテクチャの探求である。 これらの手法は量子化後のローカルな詳細を効果的に保持するが、しばしば意味レベルの情報の捕捉に苦戦し、自己回帰型マルチモーダル画像理解タスクにおける有効性を制限している。我々が提案するTokenFlowは、共有マッピングを持つデュアルコードブックを導入することでこの制限に対処し、自己回帰型生成とマルチモーダル理解の両方において最先端の性能を達成している。

2.2 Tokenization for Unified Multimodal Understanding and Generation

マルチモーダル理解と生成の間のギャップを埋めるための最近の取り組みが登場している [23, 48, 62, 60, 55, 57]。 Chameleon [48]、EMU3 [55]、Show-o [62]などのアプローチは、両タスクに対して画像をエンコードするためにVQトークナイザー [13, 73, 66] を採用している。しかし、これらの手法は通常、ゼロからのマルチモーダル学習を必要とし、トークン化された特徴量の意味表現が限られているため、視覚認識タスクにおいてしばしば性能低下に悩まされる。 SEED-LLaMA [23] は、理解のための高レベルの意味を組み込んだ新しいVQトークナイザーを導入し、生成デコーダーとしてSD [41] を利用している。Janus [57] は、理解 [69] と生成 [44] に別々のトークナイザーを採用することでモダリティギャップに対処しようとしたが、これは根本的な課題を解決することなくモデルの複雑性を増加させることになる。 並行して行われた研究 [60] では、事前学習中にテキストと離散的な視覚特徴を整列させる統一されたビジョンタワーが提案された。しかし、彼らのアプローチは低レベルと高レベルの表現を単一のフローに制限しており、下流タスクの性能の上限を制限している。 対照的に、我々の研究は、理解と生成を統合する鍵は普遍的なマッピングを学習することにあると主張する。TokenFlowは、共有マッピングを持つデュアルコードブックを定義することで、低レベルと高レベルの特徴の柔軟な組み合わせを可能にし、すべての下流タスクにおいて優れた性能をもたらす。

3 Method

3.1 Motivation

表1: LLaVA-1.5フレームワーク内でのマルチモーダル理解に関する様々な視覚エンコーダーの比較[43, 23, 14]。VQKDはCLIP ViT-B/14から蒸留されている。「Sem.」は意味レベルの表現を学習する意味エンコーダーを指し、「Pix.」は低レベルの視覚特徴に焦点を当てるピクセルレベルのトークナイザーを示す。
# Exp. Visual Encoder Type MME-P \uparrow SEEDB \uparrow TQA \uparrow
Continuous:
1 CLIP ViT-B/14 [37] Sem. 1460.9 64.1 53.4
Discrete:
2 VQGAN [13] Pix. 756.1 38.2 46.8
3 VQGAN-LC [76] Pix. 744.8 38.2 45.7
4 LFQ [66] Pix. 889.5 41.1 46.4
5 VQKD [35] Sem. 1252.4 57.8 48.2
Refer to caption
図4: (a) VQKD [35]、(b) VQGAN [13]、(c) 我々のTokenFlowによってクラスタリングされた画像の可視化。VQKDクラスターは意味的類似性を示し、VQGANクラスターは低レベルの類似性(すなわち色)を示す。我々のTokenFlowは意味的類似性と低レベルの類似性の両方を成功裏に組み合わせることができる。画像クラスタリングの実装詳細はセクション A.1に記載されている。

マルチモーダル理解と生成を一貫した次トークン予測パラダイムに統合するには、入力画像からインデックスを抽出するためのVQトークナイザーが必要である。 従来のVQトークナイザー[54, 13, 76, 66]はピクセルレベルの画像再構成に優れているが、我々の調査では画像理解能力に重大な限界があることが明らかになった。我々はLLaVA-1.5 [29]フレームワーク内でこれらのトークナイザーを特徴抽出器として使用する実験を行った。 1の実験2-4に示すように、これらの離散トークナイザーの性能は一貫して連続トークナイザーであるCLIP ViT-B/14 [37]の性能を下回っている。我々は、この性能差が主に低レベルの再構成品質の向上を目的とした事前学習目的に起因すると考えている。その結果、抽出された特徴は主に低レベルの情報をエンコードし、複雑な視覚的推論に不可欠な意味レベルの理解が欠けている。

理解と生成を統一するためのもう一つの直接的な解決策は、事前学習済みのCLIP [37, 69, 45, 8]から離散トークンを蒸留し、それに画像再構成能力を付与することである。実験5で示されているように、CLIP ViT-B/14から蒸留されたVQKDは、他の離散トークナイザーと比較して性能差を大幅に縮小している。 我々はさらに、VQKDによって抽出された量子化特徴から元の画像を再構成する実験を行った。再構成された画像は著しいぼやけと高周波詳細の明らかな損失を示し、 8に示されている。我々はこの結果をVQKDのエンコーダーの性質に起因すると考えている。このエンコーダーは意味的に近いパッチを同じコードブックインデックスにマッピングする。 4 (a)に示されているように、VQKDは同じ意味を持つ画像を同じコードブックインデックスにマッピングする傾向がある一方、VQGAN( 4 (b))は視覚的に類似した画像を同じコードブックインデックスにマッピングし、意味的内容よりも低レベルの特徴を優先する傾向がある。 したがって、VQKDによって集約された低レベルで異なるパッチから細かい詳細を再構成することは非常に困難になる。

これらの観察結果は、高レベルの意味理解と低レベルの視覚再構成タスクを効果的に処理できる新しいトークン化アプローチの開発の必要性を強調している。

3.2 Unified Image Tokenizer

このギャップを埋めるため、我々はTokenFlow( 3)を提案する。これは、意味レベルとピクセルレベルの両方で共同表現学習を可能にする新しい統合画像トークナイザーである。 理解と生成を統合する鍵は、普遍的なマッピングを学習することにあると我々は考える。トークナイザーが高レベルと低レベルの両方で類似したパッチを同じコードブックインデックスにマッピングできれば、量子化された特徴は容易にデコードでき、自己回帰的な視覚生成タスクとマルチモーダル理解タスクの両方に直接適用できる。

エンコーダー。 低レベルの画像情報を抽出するために単一のエンコーダーを使用する以前のアプローチとは異なり、我々は意味エンコーダーsemsubscriptsem\mathcal{E}_{\text{sem}}caligraphic_E start_POSTSUBSCRIPT sem end_POSTSUBSCRIPTとピクセルエンコーダーpixsubscriptpix\mathcal{E}_{\text{pix}}caligraphic_E start_POSTSUBSCRIPT pix end_POSTSUBSCRIPTからなるデュアルエンコーダーアーキテクチャを提案する。この設計により、2つの異なるタイプの画像特徴を抽出することが可能になる。 意味エンコーダーについては、事前学習済みのテキスト整合ビジョンエンコーダー(例:CLIP ViT-B/14)で初期化する。この初期化戦略により、意味コードブックにおける高レベルのテキスト整合埋め込みのより良い学習が促進され、最終的にモデルのマルチモーダル理解能力が向上する。 ここでは簡潔さのため、特徴表現の空間インデックスは省略し、z^sem=sem(x)dsemsubscript^𝑧semsubscriptsem𝑥superscriptsubscript𝑑sem\hat{z}_{\text{sem}}=\mathcal{E}_{\text{sem}}(x)\in\mathbb{R}^{d_{\text{sem}}}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT = caligraphic_E start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT ( italic_x ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_d start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT end_POSTSUPERSCRIPTz^pix=pix(x)dpixsubscript^𝑧pixsubscriptpix𝑥superscriptsubscript𝑑pix\hat{z}_{\text{pix}}=\mathcal{E}_{\text{pix}}(x)\in\mathbb{R}^{d_{\text{pix}}}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT = caligraphic_E start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT ( italic_x ) ∈ blackboard_R start_POSTSUPERSCRIPT italic_d start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT end_POSTSUPERSCRIPTはそれぞれ意味エンコーダーとピクセルエンコーダーからエンコードされた特徴である。

量子化。 我々は、意味レベルの埋め込み𝐙sem={zsem,i}i=1KK×dsemsubscript𝐙semsuperscriptsubscriptsubscript𝑧sem𝑖𝑖1𝐾superscript𝐾subscript𝑑sem\mathbf{Z}_{\text{sem}}=\{z_{\text{sem},i}\}_{i=1}^{K}\in\mathbb{R}^{K\times d% _{\text{sem}}}bold_Z start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT = { italic_z start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_K × italic_d start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT end_POSTSUPERSCRIPTとピクセルレベルの埋め込み𝐙pix={zpix,i}i=1KK×dpixsubscript𝐙pixsuperscriptsubscriptsubscript𝑧pix𝑖𝑖1𝐾superscript𝐾subscript𝑑pix\mathbf{Z}_{\text{pix}}=\{z_{\text{pix},i}\}_{i=1}^{K}\in\mathbb{R}^{K\times d% _{\text{pix}}}bold_Z start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT = { italic_z start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_K × italic_d start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT end_POSTSUPERSCRIPTという2つのコードブックを採用する革新的な量子化アプローチを導入する。ここでK𝐾Kitalic_Kはコードブックエントリの数である。これら2つのコードブックは統一されたマッピングを共有し、量子化プロセス中に高レベルの意味情報と低レベルのピクセル詳細を同時に考慮することを可能にする。 エンコードされた特徴表現z^semsubscript^𝑧sem\hat{z}_{\text{sem}}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT sem end_POSTSUBSCRIPTz^pixsubscript^𝑧pix\hat{z}_{\text{pix}}over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT pix end_POSTSUBSCRIPTが与えられると、l2subscript𝑙2l_{2}italic_l start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTノルム後のそれぞれのコードブック埋め込みへの距離を計算する[64]

dsem,i=z^semzsem,i22,for i=1,,Kformulae-sequencesubscript𝑑sem𝑖superscriptsubscriptnormsubscript^𝑧semsubscript𝑧sem𝑖22for 𝑖1𝐾d_{\text{sem},i}=\|\hat{z}_{\text{sem}}-z_{\text{sem},i}\|_{2}^{2},\text{for }% i=1,\ldots,Kitalic_d start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT = ∥ over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT - italic_z start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , for italic_i = 1 , … , italic_K (1)
dpix,i=z^pixzpix,i22,for i=1,,Kformulae-sequencesubscript𝑑pix𝑖superscriptsubscriptnormsubscript^𝑧pixsubscript𝑧pix𝑖22for 𝑖1𝐾d_{\text{pix},i}=\|\hat{z}_{\text{pix}}-z_{\text{pix},i}\|_{2}^{2},\text{for }% i=1,\ldots,Kitalic_d start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT = ∥ over^ start_ARG italic_z end_ARG start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT - italic_z start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT ∥ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT , for italic_i = 1 , … , italic_K (2)
i=argmini(dsem,i+wdisdpix,i)superscript𝑖subscriptargmin𝑖subscript𝑑sem𝑖subscript𝑤dissubscript𝑑pix𝑖i^{*}=\operatorname*{arg\,min}_{i}(d_{\text{sem},i}+w_{\text{dis}}\cdot d_{% \text{pix},i})italic_i start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT = start_OPERATOR roman_arg roman_min end_OPERATOR start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_d start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT + italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPT ⋅ italic_d start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT ) (3)

最適な量子化インデックスisuperscript𝑖i^{*}italic_i start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPTは、これら2つの距離の重み付き和を最小化することで決定される。ここでwdissubscript𝑤disw_{\text{dis}}italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPTは距離バランスの重みであり、 3に示されている。 この共同最適化アプローチは、通常単一の特徴タイプの分布学習に焦点を当てる従来のVQ手法とは大きく異なる。 我々はさらに、コードブック表現の豊かさを高めるためにマルチスケールVQ(MSVQ)構造[51]を採用する。 我々の共有マッピング戦略により、コードブックは高レベルの意味と低レベルの特徴の結合分布を学習することができ、以下のような重要な利点をもたらす:

スケーラビリティ: 我々のアプローチは、コードブックサイズが増加するにつれて、生成タスクと理解タスクの両方で一貫した性能向上を示す。これは、大きなコードブックサイズがより多くの高レベルおよび低レベルの特徴組み合わせの可能性を提供するためである。コードブックサイズを131,072まで拡大しても、95%を超える非常に高い利用率を維持しながら、最高の画像再構成品質とマルチモーダル理解性能を達成することができる。

マルチタスク能力:意味レベルとピクセルレベルの特徴の結合分布を学習することで、我々の手法は生成タスクと理解タスクの間のギャップを埋める。この統一された表現により、単一のトークナイザーが両方の領域で優れた性能を発揮することが可能になる。この設計はまた、他のタイプの特徴表現を埋め込むためのより多くのコードブックをシームレスに統合することを可能にし、アーキテクチャの変更なしにより多くのダウンストリームタスクへの拡張性を実現する。

デコーダーと学習目的。 我々のアーキテクチャは、意味特徴と元の画像を再構成するための意味デコーダー𝒟semsubscript𝒟sem\mathcal{D}_{\text{sem}}caligraphic_D start_POSTSUBSCRIPT sem end_POSTSUBSCRIPTとピクセルデコーダー𝒟pixsubscript𝒟pix\mathcal{D}_{\text{pix}}caligraphic_D start_POSTSUBSCRIPT pix end_POSTSUBSCRIPTを含む2つの異なるデコーダーを組み込んでいる。 我々は、ターゲット特徴抽出のために教師モデル[35](意味エンコーダーの初期化と同一)を採用する。意味損失semsubscriptsem\mathcal{L}_{\text{sem}}caligraphic_L start_POSTSUBSCRIPT sem end_POSTSUBSCRIPTは、デコードされた特徴と教師抽出特徴の間のl2subscript𝑙2l_{2}italic_l start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT距離として計算される。再構成損失は以下のように定式化される:

pix=2(x,x^)+P(x,x^)+λGG(x^)subscriptpixsubscript2𝑥^𝑥subscriptP𝑥^𝑥subscript𝜆GsubscriptG^𝑥\mathcal{L}_{\text{pix}}={\ell}_{2}(x,\hat{x})+\mathcal{L}_{\text{P}}(x,\hat{x% })+\lambda_{\text{G}}\mathcal{L}_{\text{G}}(\hat{x})caligraphic_L start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT = roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_x , over^ start_ARG italic_x end_ARG ) + caligraphic_L start_POSTSUBSCRIPT P end_POSTSUBSCRIPT ( italic_x , over^ start_ARG italic_x end_ARG ) + italic_λ start_POSTSUBSCRIPT G end_POSTSUBSCRIPT caligraphic_L start_POSTSUBSCRIPT G end_POSTSUBSCRIPT ( over^ start_ARG italic_x end_ARG ) (4)

ここでx^=𝒟pix(z)^𝑥subscript𝒟pix𝑧\hat{x}=\mathcal{D}_{\text{pix}}(z)over^ start_ARG italic_x end_ARG = caligraphic_D start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT ( italic_z )2subscript2{\ell}_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTはピクセル単位の再構成損失を表し、P()subscriptP\mathcal{L}_{\text{P}}(\cdot)caligraphic_L start_POSTSUBSCRIPT P end_POSTSUBSCRIPT ( ⋅ )はLPIPSを使用した知覚損失を表し、G()subscriptG\mathcal{L}_{\text{G}}(\cdot)caligraphic_L start_POSTSUBSCRIPT G end_POSTSUBSCRIPT ( ⋅ )λGsubscript𝜆G\lambda_{\text{G}}italic_λ start_POSTSUBSCRIPT G end_POSTSUBSCRIPTをその重み係数とする敵対的損失を表す。ベクトル量子化の慣例に従い、我々はストレートスルー勾配推定器を採用する:z=sg[zz^]+z^𝑧sgdelimited-[]𝑧^𝑧^𝑧z=\text{sg}[z-\hat{z}]+\hat{z}italic_z = sg [ italic_z - over^ start_ARG italic_z end_ARG ] + over^ start_ARG italic_z end_ARG ここでsg[]sgdelimited-[]\text{sg}[\cdot]sg [ ⋅ ]は勾配停止操作を表す。 コードブック学習の目的は以下の通りである: VQ=sg[z^]z22+βz^sg[z]22subscriptVQsuperscriptsubscriptnormsgdelimited-[]^𝑧𝑧22𝛽superscriptsubscriptnorm^𝑧sgdelimited-[]𝑧22\mathcal{L}_{\text{VQ}}=||\text{sg}[\hat{z}]-z||_{2}^{2}+\beta||\hat{z}-\text{% sg}[z]||_{2}^{2}caligraphic_L start_POSTSUBSCRIPT VQ end_POSTSUBSCRIPT = | | sg [ over^ start_ARG italic_z end_ARG ] - italic_z | | start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT + italic_β | | over^ start_ARG italic_z end_ARG - sg [ italic_z ] | | start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ここで2項目はバランス係数β𝛽\betaitalic_βを持つコミットメント損失を表す。全体の学習目的はすべての損失の合計である: total=sem+VQ+pixsubscripttotalsubscriptsemsubscriptVQsubscriptpix\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{sem}}+\mathcal{L}_{\text{VQ}}+% \mathcal{L}_{\text{pix}}caligraphic_L start_POSTSUBSCRIPT total end_POSTSUBSCRIPT = caligraphic_L start_POSTSUBSCRIPT sem end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT VQ end_POSTSUBSCRIPT + caligraphic_L start_POSTSUBSCRIPT pix end_POSTSUBSCRIPT

Refer to caption
図5: 我々のフレームワークにおける異なるサンプリング戦略の定性的比較。(a) シングルパスのトップ-k𝑘kitalic_kk𝑘kitalic_k=1200)およびトップ-p𝑝pitalic_pp𝑝pitalic_p=0.8)サンプリングは、一貫性のないパターンとアーティファクトを示す。(b) 我々が提案するマルチステップサンプリング戦略は、より一貫性があり視覚的に魅力的な結果を生成する。詳細を確認するには拡大して見ることをお勧めする。

3.3 Visual Generation with TokenFlow

TokenFlowは、次のスケール予測パラダイムを用いた自己回帰的テキスト画像生成において、最先端の性能を達成するのに役立つ。以下に、高品質な画像合成のための我々のトレーニングと推論戦略の詳細を示す。

トレーニング戦略。 我々の視覚生成アーキテクチャは、事前学習されたLLMモデル[53]を基盤としている。テキストエンコーディングには、モデル固有のBPEトークナイザーを活用し、入力テキストを離散トークン列に変換して特徴表現を抽出する。元の語彙は、特殊な視覚トークンで拡張される。TokenFlowを使用して画像トークンを抽出し、MLPを通過させ、テキストトークンと連結してトレーニングを行う。 モデルの自己回帰的性質を考慮し、画像トークンのみに対して計算されるクロスエントロピー損失を採用する。推論時にクラシファイアフリーガイダンス[17]を可能にするため、トレーニング中に確率pdrop=0.1subscript𝑝drop0.1p_{\text{drop}}=0.1italic_p start_POSTSUBSCRIPT drop end_POSTSUBSCRIPT = 0.1で条件付きテキストを空文字列に置き換える。[48, 11, 56]に従い、トレーニングの安定性を向上させ、損失のスパイクを防ぐためにQK正規化とノルム再順序化を組み込む。

推論戦略。 我々は、次のスケールパラダイムにおいて従来のtop-k𝑘kitalic_k-top-p𝑝pitalic_pサンプリング戦略を採用すると、しばしば画像の崩壊や局所的なパターンの繰り返しにつながることを観察した。これは、クロスエントロピー学習目的が主にtop-1予測との注意ベースの関係を確立することに起因する。推論時に各トークンに対して独立したtop-k𝑘kitalic_kサンプリングを行うと、直接的な相関関係のないトークンが生成され、一貫性のない、あるいは繰り返しのパターンが生じる可能性がある。これは後続のスケールの注意によって部分的にしか改善できない。この問題は、特に推論ステップが限られている場合に深刻化する。

この根本的な制限に対処するため、我々は新しい多段階サンプリングアプローチを提案する: (i) 初期サンプリング:パラメータk1subscript𝑘1k_{1}italic_k start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTおよびp1subscript𝑝1p_{1}italic_p start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTを用いてtop-k𝑘kitalic_k top-p𝑝pitalic_pサンプリングを実行する。(ii) 精緻化:サンプリングされた出力を入力として、同じスケールで減少したパラメータk2<k1subscript𝑘2subscript𝑘1k_{2}<k_{1}italic_k start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT < italic_k start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTおよびp2<p1subscript𝑝2subscript𝑝1p_{2}<p_{1}italic_p start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT < italic_p start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTを用いて2回目のサンプリングを行う。 このサンプリング空間の段階的な絞り込みにより、創造的な多様性を維持しつつ、精緻化ステップを通じて一貫性を強制する。経験的結果は、単一パスのサンプリング方法と比較して、はるかに一貫性があり視覚的に魅力的な生成を示している( 5およびセクション B.1の詳細なアブレーションを参照)。

3.4 Multimodal Understanding with TokenFlow

TokenFlowはマルチスケールVQトークナイザーとして機能し、量子化されたマルチスケール特徴量を直接事前学習済みLLMに入力してマルチモーダル理解の訓練を行うことができる。これはLLaVA-1.5 [29] のパラダイムに従っている。デュアルフローからの結合特徴表現がモデルへの入力として使用される。 我々は複数の特徴入力戦略を検証した:(i) すべてのスケールからの特徴 (ii) 最終スケールの特徴のみ (iii) すべてのスケールからの残差特徴。Sec. B.1で詳述するように、最終スケールからの特徴が全体的に最良の性能を達成することを我々は発見した。これは、最終スケールがマルチモーダル理解に最も関連する意味情報を捉えており、追加のスケール特徴や残差特徴は性能を損なうノイズを導入する可能性があることを示唆している。 本稿のモデルは、既存の離散的マルチモーダル手法を大幅に上回る改善を示している。特筆すべきは、これらの性能向上が最小限の計算オーバーヘッドで達成できることである。LLaVA 1.5の訓練データを使用して8×A100 GPUで24時間未満の訓練で実現可能である。

4 Experiments

4.1 Experimental Setup

データセット。 TokenFlowはLAION [42]とCOYO-700M [5]で訓練され、ImageNet [12]で評価される。顔生成の品質を向上させるため、我々は[48]に従い、トークナイザー訓練中に顔を含む画像の割合を2倍にアップサンプリングした。 アブレーション研究のため、我々はCLIP ViT-B/14-224 [37]を用いてImageNet-1Kで50エポックトークナイザーを訓練した。 TokenFlowによる視覚生成のため、我々はQwen-VL [3]を用いてキャプションを生成した、厳選された60Mの高品質画像データセットで訓練を行った。

実装の詳細。 我々はTokenFlowの3つのバリアント(B/L/XL)を採用し、それぞれCLIP ViT-B/14-224 [37]、ViTamin-XL-256 [8]、SigLIP-SO400M-patch14-384 [69]を教師モデルおよび意味エンコーダの初期化として使用した。詳細な構成はセクション A.2に記載されている。マルチモーダル理解のため、我々はVicuna-v1.5-13B [10]とQwen-2.5-14B [50]を言語バックボーンとして採用した。 256×256の視覚生成訓練では、短いプロンプト生成能力を向上させるため、0.2の確率でキャプションを最初の文に切り詰めた。モデルはLlama-2-7b [53]で初期化され、2エポック訓練された。推論時には、スケール係数7.5でクラスフリーガイダンス [17]を適用した。

評価指標。 我々はImageNet-1K検証セット [12]を用いて、rFID、PSNR、SSIMで再構成品質を評価する。マルチモーダル理解については、包括的な視覚言語ベンチマークスイートで評価を行う:SEEDBench [22]、MMVet [67]、POPE [26]、VQAv2 [16]、GQA [19]、TextVQA [43]、AI2D [20]、RealWorldQA [61]、MMMU [68]、MMBench [32]、MME [14]。 視覚生成能力はGenEval [15]とDPG-Bench [18]を用いて評価される。我々はFIDスコアを含めないことを選択した。これは、FIDが生成モデルの全体的なパフォーマンスに関する人間の評価とよく相関しないと主張されているためである [36, 46, 7]

4.2 Unified Image Tokenizer

表2: ImageNet 50k検証セットにおける再構成品質の比較。「#Lvls.」は使用された残差レベルの数を表す。384×384の解像度では、ダウンサンプル比14.2は384/27から導出される。
Model Res. ratio #Lvls. rFID \downarrow PSNR \uparrow SSIM \uparrow
VQ-GAN [13] 256 16 1 4.98 20.00 0.629
LlamaGen [44] 256 16 1 2.19 20.79 0.675
RQ-VAE [21] 256 32 4 3.20
RQ-VAE [21] 256 16 4 1.30
VAR [51] 256 16 10 1.00 22.63 0.755
VILA-U [60] 256 16 4 1.80
Ours 256 16 9 1.37 21.41 0.687
LlamaGen [60] 384 14.2 1 0.94 21.94 0.726
VILA-U [60] 384 14.2 16 1.25
VAR [51] 384 16 13 2.09 22.73 0.774
Ours 384 14.2 15 0.63 22.77 0.731

2において、我々はTokenFlowの256×256および384×384解像度における再構成メトリクスを示している。VAR [51]のメトリクスは公開されたチェックポイントでテストされている。256×256解像度で16倍の圧縮率の場合、TokenFlowはrFID 1.37という競争力のある性能を達成し、RQ-VAEと同等でありながら、VQ-GANやLlamaGenなどの以前の手法を大幅に上回っている。TokenFlowは384×384解像度—マルチモーダル理解タスクの標準サイズ—において、すべてのメトリクスで優れた再構成品質を示している。これらの結果は、微細な視覚的詳細を保持するデュアルコードブック設計の有効性を裏付けている。さらに、共有マッピングの導入により、TokenFlowは高レベルの意味的特徴を維持することができ、これはセクション 4.3で検証されている。

4.3 Multimodal Understanding

表3: マルチモーダル理解ベンチマークにおける評価。我々は以下の評価を収集した: SEEDB: SEED Bench-Img [22]; MMV: MM-Vet [67]; POPE [26]; VQAv2 [16]; GQA [19]; TQA: TextVQA [43]; AI2D [20]; RWQA: RealWorldQA [61]; MMMU [68]; MMB: MMBench [32]; MME [14] および MME-P: MME-Perception。連続的な視覚入力を用いるアプローチ(上部)と離散的な視覚入力を用いるアプローチ(下部)を含めている。離散的な視覚入力を用いるアプローチの中で最良の結果は太字で強調されている。* の結果は元の論文では報告されておらず、公開されたチェックポイントを使用してlmms-eval [71] でテストされたものである。平均を計算する際、我々はMME-Pを使用し、他のベンチマークと同じスケールにするために20で割っている。
Method # Params Res. SEEDB MMV POPE VQAv2 GQA TQA AI2D RWQA MMMU MMB MME MME-P Avg.
Continuous Visual Input
InstructBLIP [30] Vicuna-13B 224 58.8 25.6 78.9 49.5 50.7 36.0 1212.8
MiniGPT-4 [75] Vicuna-13B 224 1158.7 866.6
BLIP-2 [24] Vicuna-13B 224 46.4 22.4 42.5 26.6 1293.8
ShareGPT4V [9] Vicuna-7B 336 69.7 37.6 80.6 63.3 60.4 58.0 54.9 37.2 68.8 1943.8 1567.4
NExT-GPT [58] Vicuna-7B 224 57.5 66.0 58.0
Qwen-VL-Chat [3] Qwen-7B 448 57.7 78.2 57.5 1848.3 1487.5
Janus [57] DeepSeek-LLM-1.3B 384 63.7 34.3 87.0 77.3 59.1 30.5 69.4 1338.0
LLaVA-1.5 [29] Vicuna-13B 336 68.1 36.1 85.9 80.0 63.3 61.3 61.1 55.3 36.4 67.7 1826.7 1531.3 62.9
Discrete Visual Input
Gemini-Nano-1 [49] 1.8B from scratch 62.7 26.3
Chameleon [48] 34B from scratch 256 69.6
LWM [31] LLaMA-2-7B 256 9.6 75.2 55.8 44.8 18.8
SEED-LLaMA [23] LLaMA-2-13B 224 53.7 63.4
Show-o [62] Phi-1.5-1.3B 256 80.0 69.4 58.0 26.7 1097.2
VILA-U [60] LLaMA-2-7B 256 56.3 27.7 83.9 75.3 58.3 48.3 1336.2
VILA-U [60] LLaMA-2-7B 384 59.0 33.5 85.8 79.4 60.8 60.8 1401.8
EMU3 [55] 8B from scratch 512 68.2 37.2 85.2 75.1 60.3 64.7 70.0 57.4 31.6 58.5 1509.9* 1243.8* 60.9
TokenFlow-B Vicuna-13B 224 60.4 22.4 84.0 70.2 59.3 49.8 54.2 49.4 34.2 55.3 1660.4 1353.6 55.2
TokenFlow-L Vicuna-13B 256 62.6 27.7 85.0 73.9 60.3 54.1 56.6 49.2 34.4 60.3 1622.9 1365.4 57.5
TokenFlow-XL Vicuna-13B 384 68.7 40.7 86.8 77.9 62.7 61.5 66.7 53.7 38.7 68.9 1840.9 1545.9 64.0
TokenFlow-XL Qwen-2.5-14B 384 72.6 48.2 87.8 77.6 62.5 62.3 75.8 56.6 43.2 76.8 1922.2 1551.1 67.4

TokenFlowは、離散的な視覚エンコーダーとして、包括的なマルチモーダル理解ベンチマーク群において最先端の性能を示している。LLaVA-1.5のトレーニングパイプラインに従い、我々はTokenFlow-BとTokenFlow-LをLLaVA-Pretrain558Kを用いてアダプターの事前学習を行い、LLaVA-v1.5-mix-665Kを用いて指示調整を行った。TokenFlow-XLについては、最近の[52]の知見に触発され、教師モデルであるSigLIP-SO400Mが増加したトレーニングデータから大きな恩恵を受けるため、事前学習と指示調整にそれぞれCambrian-AlignmentとCambrian-10Mを活用した。 3に示されているように、TokenFlow-XLはCLIPスタイルのエンコーダーを用いた連続的入力を持つ主要なアプローチと比較して、競争力のある、あるいはそれ以上の結果を達成している。同じ言語バックボーン(Vicuna 13B)を使用した場合、TokenFlow-XLはLLaVA-1.5 13Bを平均で1.7%上回り、離散的な視覚入力を持つモデルがこの強力なベースラインを初めて上回ったことを示している。 LLMバックボーンをQwen-2.5-14B [50]に単純に変更することで、我々はさらにLLaVA-1.5を7.2%上回った。

離散的な入力を用いる手法と比較した場合、我々のアプローチはトレーニング効率を維持しながら優れた性能を示している。ChameleonやEMU3のようにゼロから学習されたモデルとは異なり、我々の手法はLLaVA 1.5のデータを使用して8×A100 GPUで24時間未満のトレーニングしか必要としない。 TokenFlow-XL 14BはEMU3を大幅に上回り、全体的に10.7%の改善を示している。 これらの有望な実証結果を踏まえ、我々はTokenFlowを統合的な理解と生成タスクのための次世代ビジョントークナイザーとして位置付けている。我々の発見は、離散的な視覚表現が連続的な対応物の性能に匹敵するだけでなく、実用的なトレーニング要件を維持しながらそれを上回ることができることを示唆している。

4.4 Visual Generation

我々は、拡散ベース、自己回帰ベース、およびハイブリッドアプローチを含む最先端の手法に対して、標準的なベンチマークであるGenEval [15]とDPG-Bench [18]上で、我々のモデルの生成能力を評価する。 4に示すように、我々のアプローチは、生成ステップ数が大幅に少ないにもかかわらず、競争力のある性能を達成している。

256×256の画像生成において、我々は元の9ステップサンプリング(トークナイザースケールごとに1回)の代わりに、マルチステップサンプリング戦略を採用する。具体的には、最初のスケールを除くすべてのスケールで、top-k𝑘kitalic_k=[1200,100,1]とtop-p𝑝pitalic_p=[0.8,0.8,1.0]を用いて、スケールごとに3ステップを適用し、合計25ステップとする。 この推論スキームの下で、我々のモデルはGenEvalスコア0.55を達成し、Stable Diffusion v2.1やPixArt-alphaなどの著名な拡散モデルを上回る。さらに重要なことに、数千回の推論ステップを必要とするChameleon、LlamaGen、EMU3などの自己回帰法を上回る。プロンプトの書き換えを行うと、我々のモデルは0.63を達成し、DALL-E 3の性能に近づく。 DPG-Benchでは、平均スコア72.9を達成し、LlamaGen、Show-o、SD v1.5、PixArt-alphaを上回る。 さらに、我々のモデルは1×A100 GPUで1枚の画像を推論するのに2.7秒しかかからず、他の自己回帰ベースの手法よりも大幅に高速である。

表4: GenEval [15]とDPG-Bench [18]における生成品質の比較。"#Step":画像を生成するために必要なモデル実行回数。\daggerの結果は書き換えを伴う。
Model Text Pretrain Res. #Steps GenEval DPG-Bench
Overall \uparrow Average \uparrow
Diffusion-based
SD v1.5 [41] CLIP ViT-L/14 512 50 0.43 63.18
DALL-E 2 [39] CLIP ViT-H/16 1024 0.52
SD v2.1 [41] CLIP ViT-H/14 768 50 0.50
SDXL [36] CLIP ViT-bigG 1024 40 0.55 74.65
PixArt-alpha [7] Flan-T5-XXL 512 20 0.48 71.11
DALL-E 3 [4] Flan-T5-XXL 1024 0.67 83.50
Autoregressive meets diffusion
Show-o [62] Phi-1.5 256 16 0.53 67.27
Transfusion [74] 256 250 0.63
Autoregressive-based
Chameleon [48] 512 1024 0.39
LlamaGen [44] Flan-T5-XL 512 1024 0.32 64.84
EMU3 [55] 512 4096 0.54 / 0.66 80.60
VAR [51] 256 28 0.53 71.08
Ours 256 25 0.55 / 0.63 73.38
Refer to caption
図6: コードブックサイズが再構成品質、クラス条件付き生成、およびマルチモーダル理解ベンチマークに与える影響。MMEは同じスケールにするために28で割られている。

我々はさらに、TokenFlowとリリースされたVARトークナイザー [51]との間でテキストから画像への追加比較を行う。同一の訓練構成とデータセット設定の下で、我々のモデルはすべてのベンチマーク指標において一貫してより良い性能を示し、これは我々の統一されたトークン化アプローチの有効性をさらに実証するものである。

4.5 Ablation Studies

コードブックサイズの影響。 6において、我々は統一トークナイザーにおけるコードブックサイズの影響を8,192から131,072まで変化させて実験した。我々の評価は再構成品質、クラス条件付き生成、およびマルチモーダル理解能力にわたる。クラス条件付き生成については、d=16のVARトランスフォーマー[51]を採用し、約310Mのパラメータとなっている。

表5: 主要な設計選択が再構成品質とマルチモーダル理解ベンチマークに与える影響。各指標の最良結果は太字で強調されている。
Shared Mapping MSVQ CLIP Init. rFID \downarrow MME-P \uparrow SEEDB \uparrow TQA \uparrow
8.07 1252.38 57.84 49.16
\usym2714 3.96 1212.51 55.97 47.42
\usym2714 \usym2714 2.18 1209.90 56.08 47.40
\usym2714 \usym2714 \usym2714 2.16 1312.09 58.99 49.29

特筆すべきは、我々のアプローチがコードブックサイズ131,072でも95%を超える一貫して高いコードブック利用率を維持していることであり、これは我々の共有マッピング設計に起因する。共有マッピングにより、高レベルの意味的特徴と低レベルの詳細の効果的な組み合わせが可能となり、従来のVQトークナイザー[13]が大規模化に伴い利用率が低下するという一般的な限界に対処している。

我々の結果は、コードブックサイズの増加がマルチモーダル理解ベンチマークと再構成品質の両方で性能を向上させることを示している。 しかし、コードブックサイズが32,768を超えると、クラス条件付き生成性能がわずかに低下することが観察された。この現象は、より大きなコードブックを用いた自己回帰生成の学習の複雑さの増加に起因すると考えられる。この知見に基づき、我々はテキストから画像生成の実験において32,768のコードブックサイズを採用している。

主要な設計選択の効果。 我々はTokenFlowにおける主要な設計選択の有効性を検証した:共有マッピング、マルチスケールベクトル量子化(MSVQ)、および意味エンコーダーのCLIP初期化である。5に示すように、我々はCLIP ViT-B/14から蒸留された単一のコードブックを使用し、意味的特徴から直接画像を再構成するためのピクセルデコーダーを備えたベースラインから開始した。このベースラインは8.07という高い再構成FIDをもたらすが、これは主に意味的特徴のみから細かいピクセルの詳細を再構成することの難しさによるものであり、8に視覚化されている。 共有マッピングの導入(行2)により、2つのコードブックが高レベルと低レベルの特徴を同時に捉えることが可能になる。重み付き距離計算により、高レベルと低レベルの特徴の最適な組み合わせで入力を量子化する。この設計は再構成品質を大幅に向上させ(-4.11 rFID)、同時に同等の理解能力を維持する。

さらに、MSVQ[51]を組み込むこと(行3)で、コードブック埋め込みにマルチグラニュラーな情報が導入され、rFID 2.18という向上した再構成性能が得られることがわかった。さらに、この階層的設計により、下流のテキストから画像生成タスクにおいて次のスケール予測パラダイムが可能となり、従来の次のトークン予測アプローチ[51, 47]に比べて大幅な推論速度の利点を提供する。 意味エンコーダーを事前学習済みCLIP重みで初期化し(行4)、トークナイザー学習中に凍結しないようにすることで、コードブック埋め込みに強力な意味的事前知識を提供する。これにより、すべての理解指標で大幅な改善が見られた(MME-Perceptionで+8.4%、SEED-Benchで+5.2%、TextVQAで+4.0%)。 これらの実証的結果を踏まえ、我々はこの構成を最終的なモデルアーキテクチャとして採用し、より強力な教師モデル、追加の学習データ、および長期の学習反復を用いて実験を拡張した。

5 Conclusion

本稿では、TokenFlowという新しい統合型画像トークナイザーを紹介した。これは革新的な二重コードブック構造を通じて、マルチモーダル理解と生成の間のギャップを効果的に橋渡しするものである。 意味的特徴と画素レベルの特徴の学習を分離しつつ、共有マッピングを介してそれらの整合性を維持することで、TokenFlowは理解タスクと生成タスクに必要とされる視覚情報の粒度の違いという根本的な問題に成功裏に対処している。 我々の包括的な実験は、複数の側面においてその有効性を実証している:異なる解像度での優れた再構成品質、最小限のトレーニングコストで達成されるマルチモーダル理解における最先端の性能、そして大幅に少ない推論ステップで競争力のある視覚生成能力である。 これらの結果は、我々の共有マッピングを通じた分離しつつ整合性のある特徴学習が、理解と生成を効果的に統合しながら両領域で優れた性能を維持できることを裏付けており、TokenFlowが視覚-言語システムにおける次世代の基盤的トークナイザーとして有望であることを示唆している。

References

  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Bai et al. [2023a] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023a.
  • Bai et al. [2023b] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023b.
  • Betker et al. [2023] James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2(3):8, 2023.
  • Byeon et al. [2022] Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022.
  • Chang et al. [2023] Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T Freeman, Michael Rubinstein, et al. Muse: Text-to-image generation via masked generative transformers. arXiv preprint arXiv:2301.00704, 2023.
  • Chen et al. [2023a] Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, et al. Pixart-alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis. arXiv preprint arXiv:2310.00426, 2023a.
  • Chen et al. [2024] Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, and Liang-Chieh Chen. Vitamin: Designing scalable vision models in the vision-language era. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12954–12966, 2024.
  • Chen et al. [2023b] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, and Dahua Lin. Sharegpt4v: Improving large multi-modal models with better captions. arXiv preprint arXiv:2311.12793, 2023b.
  • Chiang et al. [2023] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E Gonzalez, et al. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https://vicuna. lmsys. org (accessed 14 April 2023), 2(3):6, 2023.
  • Dehghani et al. [2023] Mostafa Dehghani, Josip Djolonga, Basil Mustafa, Piotr Padlewski, Jonathan Heek, Justin Gilmer, Andreas Peter Steiner, Mathilde Caron, Robert Geirhos, Ibrahim Alabdulmohsin, et al. Scaling vision transformers to 22 billion parameters. In International Conference on Machine Learning, pages 7480–7512. PMLR, 2023.
  • Deng et al. [2009] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.
  • Esser et al. [2021] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 12873–12883, 2021.
  • Fu et al. [2023] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
  • Ghosh et al. [2024] Dhruba Ghosh, Hannaneh Hajishirzi, and Ludwig Schmidt. Geneval: An object-focused framework for evaluating text-to-image alignment. Advances in Neural Information Processing Systems, 36, 2024.
  • Goyal et al. [2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017.
  • Ho and Salimans [2022] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.
  • Hu et al. [2024] Xiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, and Gang Yu. Ella: Equip diffusion models with llm for enhanced semantic alignment. arXiv preprint arXiv:2403.05135, 2024.
  • Hudson and Manning [2019] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6700–6709, 2019.
  • Kembhavi et al. [2016] Aniruddha Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, and Ali Farhadi. A diagram is worth a dozen images. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part IV 14, pages 235–251. Springer, 2016.
  • Lee et al. [2022] Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, and Wook-Shin Han. Autoregressive image generation using residual quantization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11523–11532, 2022.
  • Li et al. [2023a] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023a.
  • Li et al. [2024a] Bohao Li, Yuying Ge, Yixiao Ge, Guangzhi Wang, Rui Wang, Ruimao Zhang, and Ying Shan. Seed-bench: Benchmarking multimodal large language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13299–13308, 2024a.
  • Li et al. [2023b] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023b.
  • Li et al. [2024b] Xiang Li, Hao Chen, Kai Qiu, Jason Kuen, Jiuxiang Gu, Bhiksha Raj, and Zhe Lin. Imagefolder: Autoregressive image generation with folded tokens. arXiv preprint arXiv:2410.01756, 2024b.
  • Li et al. [2023c] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. arXiv preprint arXiv:2305.10355, 2023c.
  • Li et al. [2024c] Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, and Jiaya Jia. Mini-gemini: Mining the potential of multi-modality vision language models. arXiv preprint arXiv:2403.18814, 2024c.
  • Liu et al. [2024a] Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, and Peng Gao. Lumina-mgpt: Illuminate flexible photorealistic text-to-image generation with multimodal generative pretraining. arXiv preprint arXiv:2408.02657, 2024a.
  • Liu et al. [2024b] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 26296–26306, 2024b.
  • Liu et al. [2024c] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36, 2024c.
  • Liu et al. [2024d] Hao Liu, Wilson Yan, Matei Zaharia, and Pieter Abbeel. World model on million-length video and language with ringattention. arXiv preprint arXiv:2402.08268, 2024d.
  • Liu et al. [2025] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? In European Conference on Computer Vision, pages 216–233. Springer, 2025.
  • Luo et al. [2024] Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, and Ying Shan. Open-magvit2: An open-source project toward democratizing auto-regressive visual generation. arXiv preprint arXiv:2409.04410, 2024.
  • Ma et al. [2024] Xiaoxiao Ma, Mohan Zhou, Tao Liang, Yalong Bai, Tiejun Zhao, Huaian Chen, and Yi Jin. Star: Scale-wise text-to-image generation via auto-regressive representations. arXiv preprint arXiv:2406.10797, 2024.
  • Peng et al. [2022] Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, and Furu Wei. Beit v2: Masked image modeling with vector-quantized visual tokenizers. arXiv preprint arXiv:2208.06366, 2022.
  • Podell et al. [2023] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023.
  • Radford et al. [2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR, 2021.
  • Ramesh et al. [2021] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International conference on machine learning, pages 8821–8831. Pmlr, 2021.
  • Ramesh et al. [2022] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3, 2022.
  • Razavi et al. [2019] Ali Razavi, Aaron Van den Oord, and Oriol Vinyals. Generating diverse high-fidelity images with vq-vae-2. Advances in neural information processing systems, 32, 2019.
  • Rombach et al. [2021] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2021.
  • Schuhmann et al. [2022] Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022.
  • Singh et al. [2019] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8317–8326, 2019.
  • Sun et al. [2024] Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, and Zehuan Yuan. Autoregressive model beats diffusion: Llama for scalable image generation. arXiv preprint arXiv:2406.06525, 2024.
  • Sun et al. [2023a] Quan Sun, Yuxin Fang, Ledell Wu, Xinlong Wang, and Yue Cao. Eva-clip: Improved training techniques for clip at scale. arXiv preprint arXiv:2303.15389, 2023a.
  • Sun et al. [2023b] Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, and Xinlong Wang. Generative pretraining in multimodality. arXiv preprint arXiv:2307.05222, 2023b.
  • Tang et al. [2024] Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, and Song Han. Hart: Efficient visual generation with hybrid autoregressive transformer. arXiv preprint arXiv:2410.10812, 2024.
  • Team [2024a] Chameleon Team. Chameleon: Mixed-modal early-fusion foundation models. arXiv preprint arXiv:2405.09818, 2024a.
  • Team et al. [2023] Gemini Team, Rohan Anil, Sebastian Borgeaud, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, Katie Millican, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023.
  • Team [2024b] Qwen Team. Qwen2.5: A party of foundation models, 2024b.
  • Tian et al. [2024] Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, and Liwei Wang. Visual autoregressive modeling: Scalable image generation via next-scale prediction. arXiv preprint arXiv:2404.02905, 2024.
  • Tong et al. [2024] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. arXiv preprint arXiv:2406.16860, 2024.
  • Touvron et al. [2023] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
  • Van Den Oord et al. [2017] Aaron Van Den Oord, Oriol Vinyals, et al. Neural discrete representation learning. Advances in neural information processing systems, 30, 2017.
  • Wang et al. [2024] Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, et al. Emu3: Next-token prediction is all you need. arXiv preprint arXiv:2409.18869, 2024.
  • Wortsman et al. [2023] Mitchell Wortsman, Peter J Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, et al. Small-scale proxies for large-scale transformer training instabilities. arXiv preprint arXiv:2309.14322, 2023.
  • Wu et al. [2024a] Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, et al. Janus: Decoupling visual encoding for unified multimodal understanding and generation. arXiv preprint arXiv:2410.13848, 2024a.
  • Wu et al. [2023] Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, and Tat-Seng Chua. Next-gpt: Any-to-any multimodal llm. arXiv preprint arXiv:2309.05519, 2023.
  • Wu et al. [2024b] Yiqi Wu, Xiaodan Hu, Ziming Fu, Siling Zhou, and Jiangong Li. Gpt-4o: Visual perception performance of multimodal large language models in piglet activity understanding. arXiv preprint arXiv:2406.09781, 2024b.
  • Wu et al. [2024c] Yecheng Wu, Zhuoyang Zhang, Junyu Chen, Haotian Tang, Dacheng Li, Yunhao Fang, Ligeng Zhu, Enze Xie, Hongxu Yin, Li Yi, et al. Vila-u: a unified foundation model integrating visual understanding and generation. arXiv preprint arXiv:2409.04429, 2024c.
  • XAI [2024] XAI. Realworldqa, 2024.
  • Xie et al. [2024] Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, and Mike Zheng Shou. Show-o: One single transformer to unify multimodal understanding and generation. arXiv preprint arXiv:2408.12528, 2024.
  • Xu et al. [2024] Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. Imagereward: Learning and evaluating human preferences for text-to-image generation. Advances in Neural Information Processing Systems, 36, 2024.
  • Yu et al. [2021] Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan. arXiv preprint arXiv:2110.04627, 2021.
  • Yu et al. [2022] Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, et al. Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789, 2(3):5, 2022.
  • Yu et al. [2023a] Lijun Yu, José Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion–tokenizer is key to visual generation. arXiv preprint arXiv:2310.05737, 2023a.
  • Yu et al. [2023b] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023b.
  • Yue et al. [2024] Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9556–9567, 2024.
  • Zhai et al. [2023] Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. Sigmoid loss for language image pre-training. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 11975–11986, 2023.
  • Zhang et al. [2023] Jiahui Zhang, Fangneng Zhan, Christian Theobalt, and Shijian Lu. Regularized vector quantization for tokenized image synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18467–18476, 2023.
  • Zhang et al. [2024a] Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, and Ziwei Liu. Lmms-eval: Reality check on the evaluation of large multimodal models, 2024a.
  • Zhang et al. [2024b] Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, and Wei Lu. Tinyllama: An open-source small language model, 2024b.
  • Zheng et al. [2022] Chuanxia Zheng, Tung-Long Vuong, Jianfei Cai, and Dinh Phung. Movq: Modulating quantized vectors for high-fidelity image generation. Advances in Neural Information Processing Systems, 35:23412–23425, 2022.
  • Zhou et al. [2024] Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, and Omer Levy. Transfusion: Predict the next token and diffuse images with one multi-modal model. arXiv preprint arXiv:2408.11039, 2024.
  • Zhu et al. [2023] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592, 2023.
  • Zhu et al. [2024] Lei Zhu, Fangyun Wei, Yanye Lu, and Dong Chen. Scaling the codebook size of vqgan to 100,000 with a utilization rate of 99%. arXiv preprint arXiv:2406.11837, 2024.

Appendix A Implementation Details

A.1 Motivation

マルチモーダル理解のための実験設定。 現在のVQトークナイザーのマルチモーダル理解能力を評価するために、我々は 1に詳述されている実験を実施する。LFQ [66]については、オリジナルの論文と同等の性能を示すオープンソースの実装 [33]を使用する。LFQのコードブックサイズは262,144である。VQGAN-LC [76]については、事前学習されたCLIP画像エンコーダーからクラスタリングされた、投影層前の特徴を使用し、コードブックサイズは100,000である。

VQKD、VQGAN、TokenFlowの視覚的比較のための実験設定。 4の可視化を生成するために、我々はImageNet-1k検証セットから50,000枚の画像を使用して実験を行う。これらの画像をVQKD、VQGAN、TokenFlowのエンコーダーで処理し、抽出された特徴に平均プーリングを適用して1×1111\times 11 × 1の表現を得る。その後、l2subscript𝑙2l_{2}italic_l start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT距離を用いて、それぞれのコードブックで最も近いインデックスを特定する。より多くの可視化を 11に示し、クラスターサイズの分布を 7で可視化する。

量子化された意味的特徴からの画像再構成のための実験設定。 我々は、VQKD [35]によって抽出された量子化特徴から元の画像を再構成する実験を行った。この設定では、VQKDの元のエンコーダーと量子化器を維持しつつ、入力画像を再構成することを目的とした追加のデコーダーを導入した。このデコーダーのアーキテクチャは、我々のTokenFlowで使用されているピクセルデコーダーと同一である。我々はこのデコーダーをImageNet-1Kデータセットで100エポック訓練した。 8は、元の画像と再構成された画像の視覚的比較を示している。観察されるように、再構成された画像は全体的な意味内容を維持しているものの、高周波の詳細に顕著な損失が見られる。この現象は、量子化された意味的特徴が細かい視覚的詳細を完全に保持できないことを示唆しており、これは視覚生成にとって重要である。

Refer to caption
図7: VQKD [35]、VQGAN [13]、およびTokenFlow(我々の手法)のクラスターサイズ分布の比較。コードブックサイズは8,192で固定。ImageNet-1k検証セットの50,000画像で分析を実施。TokenFlowは、他と比較して著しく滑らかな分布を示しており、これは意味的特徴とピクセルレベルの特徴の結合分布を学習する我々の共有マッピング設計に起因する。この結合学習アプローチにより、131K以上のエントリを含む大規模なコードブックでも高いコードブック利用率(95%以上)を維持することができる。

A.2 Tokenizer Training Details

我々はTokenFlow-B、TokenFlow-L、およびTokenFlow-XLの各変種の詳細な訓練設定を 11に示す。すべてのモデルは、学習率、バッチサイズ、コミットメント損失係数、敵対的損失係数、距離バランス重みを含む共通のハイパーパラメータを共有している。モデルの主な違いは、入力解像度(224、256、384)と意味的教師モデルにある。意味的教師モデルとしては、CLIP ViT-B/14 [37]、ViTamin-XL [8]、およびSigLIP-SO400M [69]を使用している。

Refer to caption
図8: 元の画像とVQKD [35]によって抽出された量子化された意味的特徴からの再構成画像の比較。再構成された画像は意味的内容を保持しているが、高周波の詳細情報の大幅な損失を示している。

Appendix B Additional Results

B.1 Additional Ablation Study

視覚生成におけるサンプリング戦略の効果。 我々は、異なるサンプリング戦略が生成品質に与える影響を分析するために、包括的な削減実験を実施した。表6に示すように、GenEval[15]とImageReward[63]メトリクスを用いて様々な構成を評価した。ImageRewardは、特にローカルな人工物と全体的な視覚品質の捕捉において、人間の好みとの強い相関があるため、削減実験に選択した。ImageRewardはMS-COCOの検証セットから10,000のプロンプトで平均化されている。マルチステップ構成では、各ステップのtop-p𝑝pitalic_pとtop-k𝑘kitalic_kの値を括弧表記[x1subscript𝑥1x_{1}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT、...、xnsubscript𝑥𝑛x_{n}italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT]で示す。

我々の2ステップ戦略を用いたマルチステップアプローチ(top-k𝑘kitalic_k=[1200, 1]、top-p𝑝pitalic_p=[0.8, 0])は、生成品質を大幅に向上させ、シングルステップサンプリングと比較してGenEvalで+0.039、ImageRewardで+0.084の改善を示した。これは、段階的な改良が全体的な一貫性の維持に役立つという我々の仮説を裏付けている。2番目のステップのk𝑘kitalic_k値を10または100に増やし、top-p𝑝pitalic_pを維持した場合、性能がわずかに低下することが観察された。この低下は、改良ステップでのサンプリングの自由度が過度に高いと、人工物の増加やローカルな不整合につながる可能性があることを示唆している。

特筆すべきは、3ステップ戦略(top-k𝑘kitalic_k=[1200, 100, 1]、top-p𝑝pitalic_ptop-k𝑘kitalic_kサンプリングにおける段階的な改良が極めて重要であることを示している。

表6:視覚生成におけるサンプリング戦略の影響。GenEvalとImageRewardを用いて、シングルステップとマルチステップのサンプリング戦略を比較する。マルチステップアプローチでは、括弧内の値は連続するサンプリングステップのパラメータを示す。
Strategy Top-k Top-p GenEval \uparrow ImageReward \uparrow
Single Step 1200 0.8 0.502 0.722
Multi Step [1200, 1] [0.8, 0] 0.541 0.806
[1200, 10] [0.8, 0.8] 0.531 0.799
[1200, 100] [0.8, 0.8] 0.529 0.745
[1200, 100, 1] [0.8, 0.8, 0] 0.553 0.825
表7:視覚生成におけるモデルサイズの影響。
Model size Training epoches GenEval \uparrow ImageReward \uparrow
1B 4 0.485 0.677
7B 2 0.553 0.825
表8:マルチモーダル理解における異なる入力戦略の影響。各メトリクスの最良の結果は太字で強調表示されている。
Input strategy MME \uparrow MME-P \uparrow SEEDB \uparrow TQA \uparrow
Full scale 1610.1 1315.1 59.6 49.5
Full scale residual 1527.5 1216.5 57.0 48.1
Last scale semantic feat. only 1580.3 1315.6 60.1 49.7
Last scale 1634.3 1356.5 59.9 49.1

視覚生成におけるモデルサイズの効果。 我々は、デコーダーのみの視覚生成アーキテクチャにおけるモデルサイズの影響を調査するために削減実験を実施した。具体的には、我々のフレームワークを2つの異なるバックボーンモデル、TinyLlama-1B[72]とLlama-2-7B[53]で初期化した。実験により、モデルサイズが生成性能に重要な役割を果たすことが示された。79に示すように、同一のサンプリング戦略とトレーニングデータセット構成の下で、1Bモデルは7Bモデルと比較して、トレーニングエポックを2倍にしても大幅に性能が劣ることが分かった。

Refer to caption
図91Bモデルと7Bモデル間の視覚生成能力の定性的比較。プロンプト(左から右):(1) "木製のまな板の上に置かれたピザ"、(2) "手で持たれているテレビセット"、(3) "男性がスーツとネクタイでおしゃれに着飾っている"、(4) "帆船が水面に浮かんでいる"。7Bモデルは1Bモデルと比較して、向上した品質を示している。

マルチモーダル理解における入力戦略の効果。 我々は、TokenFlowによるマルチモーダル理解のための異なる特徴入力戦略を検証した。8に示すように、最終スケールの特徴は、すべてのベンチマークにおいて、フルスケールの特徴とフルスケールの残差特徴の両方を一貫して上回っている。これは、最終スケールがマルチモーダル理解に最も関連する意味情報を捉えており、追加のスケール特徴や残差特徴が性能を損なうノイズを導入する可能性があることを示唆している。我々の実験はまた、意味特徴のみを利用することが全体的な理解性能を向上させないことを明らかにした。

トークナイザーデコーダーのファインチューニングの効果。 モデルの微細な詳細の生成能力をさらに向上させるために、我々は[6]に従い、デコーダーの残差層の数とチャネル次元の両方を2倍にした。 我々は、これらの強化されたデコーダー層のみをファインチューニングし、他のすべてのコンポーネントを凍結することで、学習された視覚トークンマッピングを保持した。これにより、TokenFlowの知覚能力を損なうことなく、再構成の忠実度を向上させることができる。 10に示すように、強化されたデコーダーは再構成品質に顕著な改善をもたらす。特に顔の詳細やテキスト要素において、高周波の詳細の保持が優れていることを示している。

Refer to caption
図10画像再構成品質の比較。(a) 元の画像。(b) 基本的なピクセルデコーダーを使用した再構成。(c) 強化された(2×2\times2 ×容量)デコーダーを使用した再構成。強化されたデコーダーは、特に顔の詳細やテキスト要素において、微細な詳細の保持が優れていることを示している。

B.2 More Analysis of TokenFlow

結合分布学習の分析。 我々の共有マッピングメカニズムの有効性を評価するため、VQKD [35] とVQGAN [13] との比較実験を行った。公平な比較のため、すべてのモデルは同一のコードブックサイズ8,192トークンで構成されている。ベースラインモデルについては、[35][48] からの公式な事前学習済みチェックポイントを使用した。 我々のTokenFlowモデルはImageNet-1Kで50エポック学習された。この実験では共有マッピングの効果を分離するため、マルチスケールVQ設計 [51] を意図的に除外した。

評価のため、ImageNet-1K検証セットから50,000画像を各モデルのエンコーダーで処理した。抽出された特徴に平均プーリングを適用して 1×1111\times 11 × 1 表現を得た後、それぞれのコードブックで l2subscript𝑙2l_{2}italic_l start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 距離を用いて最も近いインデックスを特定した。 7 に示すように、TokenFlowは他と比較して著しく滑らかな分布を示している。TokenFlowの非空クラスターの総数は7161/8192(87.4%)であり、VQGAN(2.5%)とVQKD(27.1%)を大きく上回っている。 これらの結果は、我々の共有マッピング設計が高レベルの意味的表現と低レベルのピクセル表現にわたる結合分布の効果的な学習を可能にすることを示している。複数レベルの視覚情報を同時にエンコードすることで、単一表現アーキテクチャと比較して結合表現空間を誘導する。これは我々の実験で観察された優れたコードブック利用率に直接寄与している。コードブックを131Kを超えるエントリーに拡張しても、TokenFlowは95%を超える例外的な利用率を維持している。クラスタリング結果は 11 に示されている。

意味的距離とピクセル距離の間の自動バランス調整。 我々の構造では、最適な量子化インデックスは argmini(dsem,i+wdisdpix,i)subscriptargmin𝑖subscript𝑑sem𝑖subscript𝑤dissubscript𝑑pix𝑖\operatorname*{arg\,min}_{i}(d_{\text{sem},i}+w_{\text{dis}}\cdot d_{\text{pix% },i})start_OPERATOR roman_arg roman_min end_OPERATOR start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ( italic_d start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT + italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPT ⋅ italic_d start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT ) によって決定される。意味的距離とピクセル距離の間には自動バランス調整メカニズムが存在する。例えば、dsem,isubscript𝑑sem𝑖d_{\text{sem},i}italic_d start_POSTSUBSCRIPT sem , italic_i end_POSTSUBSCRIPT が比較的小さく、dpix,isubscript𝑑pix𝑖d_{\text{pix},i}italic_d start_POSTSUBSCRIPT pix , italic_i end_POSTSUBSCRIPT が大きい場合、逆伝播中にコミットロスと知覚ロスの両方がエンコードされた特徴と量子化された対応物との距離を縮小することに寄与する。このメカニズムは自然にこれら2つの距離メトリクス間のギャップを狭める。したがって、我々はすべての実験で wdissubscript𝑤disw_{\text{dis}}italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPT1.01.01.01.0 に設定している。

表9: 我々の離散的TokenFlowとそれに対応する連続的意味的教師の間のマルチモーダル理解能力の定量的比較。公平な比較のため、すべての実験はLLaVA-1.5データで学習されている。平均を計算する際、MME-Pを使用し、他のベンチマークと同じスケールにするために20で割っている。
Method # Params Visual Encoder Res. SEEDB MMV POPE VQAv2 GQA TQA AI2D RWQA MMMU MMB MME MME-P Avg.
Continuous Visual Input
LLaVA-1.5 Vicuna-13B CLIP ViT-B/14 [37] 224 64.1 30.8 85.1 73.8 61.3 53.4 57.8 50.9 35.1 62.0 1737.0 1460.9 58.9
ViTamin-XL [8] 256 65.7 34.6 85.8 76.8 62.6 57.4 59.4 54.4 35.0 66.4 1839.1 1514.5 61.3
SigLIP-SO400M [69] 384 67.5 38.1 86.5 78.6 63.8 62.2 59.5 57.4 35.4 68.3 1802.1 1488.2 62.9
Discrete Visual Input
Ours Vicuna-13B TokenFlow-B 224 60.4 22.4 84.0 70.2 59.3 49.8 54.2 49.4 34.2 55.3 1660.4 1353.6 55.2 (93.7%)
TokenFlow-L 256 62.6 27.7 85.0 73.9 60.3 54.1 56.6 49.2 34.4 60.3 1622.9 1365.4 57.5 (93.8%)
TokenFlow-XL 384 65.3 41.2 86.2 76.6 63.0 57.5 56.8 53.3 34.7 62.7 1794.4 1502.3 61.1 (97.1%)
表10: GenEvalとDPG-Benchにおける生成品質の比較。Obj.: オブジェクト。Attri.: 属性。\dagger の結果は書き換えを含む。
GenEval DPG-Bench
Method Overall Single Obj. Two Obj. Counting Colors Position Color Attri. Overall Global Entity Attribute Relation Other
Diffusion-based
SDv1.5 [41] 0.43 0.97 0.38 0.35 0.76 0.04 0.06 63.18 74.63 74.23 75.39 73.49 67.81
DALL-E 2 [39] 0.52 0.94 0.66 0.49 0.77 0.10 0.19
SDv2.1 [41] 0.50 0.98 0.51 0.44 0.85 0.07 0.17
SDXL [36] 0.55 0.98 0.74 0.39 0.85 0.15 0.23 74.65 83.27 82.43 80.91 86.76 80.41
PixArt-alpha [7] 0.48 0.98 0.50 0.44 0.80 0.08 0.07 71.11 74.97 79.32 78.60 82.57 76.96
DALL-E 3 [4] 0.67 0.96 0.87 0.47 0.83 0.43 0.45 83.50 90.97 89.61 88.39 90.58 89.83
Autoregressive meets diffusion
Show-o [62] 0.53 0.95 0.52 0.49 0.82 0.11 0.28 67.27 79.33 75.44 78.02 84.45 60.80
Transfusion [74] 0.63
Autoregressive-based
Chameleon [48] 0.39
LlamaGen [44] 0.32 0.71 0.34 0.21 0.58 0.07 0.04 64.84 81.76 75.43 76.17 84.76 58.40
EMU3 [55] 0.54 0.98 0.71 0.34 0.81 0.17 0.21 80.60 85.21 86.68 86.84 90.22 83.15
VAR [51] 0.53 0.95 0.60 0.41 0.81 0.16 0.24 71.08 77.51 78.17 77.80 85.80 62.00
Ours 0.55 0.97 0.66 0.40 0.84 0.17 0.26 73.38 78.72 79.22 81.29 85.22 71.20
0.63 0.93 0.72 0.45 0.82 0.45 0.42

TokenFlowとそれに対応する意味的教師との比較。9 は、LLaVA-1.5学習パラダイムの下での我々の離散的TokenFlowバリアントとそれに対応する意味的教師との公平な比較を示している。 TokenFlowはベクトル量子化蒸留のため、その意味的教師と比較して相対的な性能差を示している。しかし、この差は解像度が上がるにつれて縮小する:224×\times×224で6.3%、256×\times×256で6.2%、そして最終的に384×\times×384で2.9%となる。この改善は、より高い解像度での離散トークン数の増加と、残差特徴を補完する追加のスケールに起因すると考えられる。

B.3 More Visual Generation Results

定量的結果。 10において、我々はGenEval [15]とDPG-Bench [18]の両方の完全なスコアを提示している。DALL-E 3 [4]に倣い、我々はGPT-4Vを書き換え器として使用したGenEvalの結果を報告する。DPG-Benchについては、LlamaGenとShow-oの公開されたチェックポイントを使用して結果をテストした。我々は、公平な比較を確保するために、VAR [51]と比較するために、彼らが公開したトークナイザーを使用し、同一の設定で視覚生成モデルを訓練した。

定性的結果。 我々は 12において追加の視覚生成結果を提示する。我々の手法は、様々なスタイル、主題、シナリオの画像を生成することができる。

Appendix C Limitation and Future Work

TokenFlowの主な制限は、離散的なトークナイザーと連続的な意味的教師モデルとの間のマルチモーダル理解における性能差にあり、これはベクトル量子化蒸留プロセスに起因している。この差は384×384の解像度で2.9%まで縮小するものの、トークナイザーの訓練中にテキスト整列損失を組み込むなど、さらなる改善のための方法がいくつか残されている。

本稿では、主にTokenFlowの設計とマルチモーダル理解および視覚生成タスクにおけるその有効性の個別検証に焦点を当てた。この研究の自然な拡張として、マルチモーダル理解と生成の両方に対応する完全に統合されたモデルの開発が挙げられる。この統合は、視覚言語データを交互に用いた共同訓練によって達成できる。これは現在、我々の最優先事項として探求中である。

Refer to caption
図11: VQKD [35]、VQGAN [13]、および我々のTokenFlowによってクラスタリングされた画像の定性的比較。VQKDクラスタは意味的類似性を示し、VQGANクラスタは低レベルの類似性(すなわち色とテクスチャ)を示す。我々のTokenFlowは、意味的類似性と低レベルの類似性の両方を成功裏に組み合わせることができる(例えば異なる背景を持つ鳥を2つの異なるインデックスにマッピングできる)。
Refer to caption
図12: TokenFlowによるさらなる視覚生成結果。様々なスタイル、主題、シナリオにわたる多様な256×256の結果を示す。
表11: TokenFlow-B、TokenFlow-L、TokenFlow-XLの詳細設定。
Tokenizer TokenFlow-B TokenFlow-L TokenFlow-XL
Tokenizer settings:
Input resolution 224 256 384
Codebook size 32,768 32,768 32,768
Semantic teacher CLIP ViT-B/14-224 [37] ViTamin-XL-256 [8] SigLIP-SO400M-patch14-384 [69]
Multi-scale settings [1, 2, 4, 6, 8, 10, 12, 14] [1, 2, 3, 4, 6, 8, 10, 12, 14, 16] [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 17, 22, 27]
Semantic codebook embedding dimension 32 32 32
Pixel codebook embedding dimension 8 8 8
Training settings:
Learning rate 1e-4 1e-4 1e-4
Batch size 256 256 256
Training steps 1,000,000 500,000 500,000
Distance balance weight wdissubscript𝑤disw_{\text{dis}}italic_w start_POSTSUBSCRIPT dis end_POSTSUBSCRIPT 1.0 1.0 1.0
Commitment loss factor β𝛽\betaitalic_β 0.25 0.25 0.25
Adversarial loss factor λGsubscript𝜆G\lambda_{\text{G}}italic_λ start_POSTSUBSCRIPT G end_POSTSUBSCRIPT 0.5 0.5 0.5
Max gradient norm 1.0 1.0 1.0