JaLMS
最新の AI 研究を日本語で解読

Scaling Image Tokenizers with Grouped Spherical Quantization

Jiangtao Wang1 , Zhen Qin2, Yifan Zhang3, Vincent Tao Hu4,
Björn Ommer4, Rania Briq1, Stefan Kesselheim1

Jülich Supercomputing Centre1, TapTap2, Tsinghua University3,
CompVis @ LMU Munich, MCML4

Training Code & Checkpoints
Abstract

ビジョントークナイザーは、その拡張性とコンパクト性により大きな注目を集めている。しかし、これまでの研究は旧来のGANベースのハイパーパラメータに依存し、偏った比較を行い、スケーリング挙動の包括的な分析が不足していた。 これらの問題に取り組むため、我々は球面コードブック初期化と参照正則化を特徴とするGrouped Spherical Quantization (GSQ)を導入し、コードブックの潜在空間を球面上に制約する。画像トークナイザーの訓練戦略に関する我々の実証的分析は、GSQ-GANが最先端の手法と比較して、より少ない訓練反復で優れた再構成品質を達成することを示しており、スケーリング研究の堅固な基盤を提供している。これを基に、我々はGSQのスケーリング挙動、特に潜在次元、コードブックサイズ、圧縮率について、そしてそれらがモデルの性能に与える影響を体系的に検証した。我々の発見は、高空間圧縮レベルと低空間圧縮レベルにおいて異なる挙動を示し、高次元潜在空間の表現における課題を浮き彫りにしている。我々は、GSQが高次元潜在空間をコンパクトな低次元空間に再構成できることを示し、これにより品質を向上させつつ効率的なスケーリングが可能になる。結果として、GSQ-GANは16倍のダウンサンプリングで0.50の再構成FID (rFID)を達成した。

1 Introduction

Refer to caption
(a) 潜在次元が16GSQ16×\times×空間圧縮における再構成性能と最先端手法との比較。
Refer to caption
(b) GSQにおける潜在次元と空間圧縮率のスケーリング挙動;d=16𝑑16d=16italic_d = 16は固定されているが、グループG𝐺Gitalic_Gが増加して潜在空間を拡張する。
図1: 上図はGSQ-GANの再構成性能を最先端手法と比較したものであり、潜在分解なしでも優れた結果を示している。より多くのグループで構成される大きなG𝐺Gitalic_Gでトレーニングすることで、潜在空間の使用をさらに最適化し、再構成品質を向上させることができる。下図はGSQ-GANの効率的なスケーリング挙動を示しており、拡張された潜在容量が増加した空間圧縮を効果的に管理し、高度に空間圧縮された潜在空間でより高忠実度の再構成を実現している。特筆すべきは、GSQ-GAN2562superscript2562256^{2}256 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度のImageNetで20エポックのトレーニングのみでこれらの結果を達成している一方で、Luo et al. (2024); Yu et al. (2024b)などの手法では270エポック以上を要することである。

画像および動画の生成モデルにおける最近の進歩は、大きな成功を収めている。オートリグレッシブモデルSun et al. (2024); Kondratyuk et al. (2024); Wang et al. (2024b)、マスク言語モデルYu et al. (2024b; 2023); Chang et al. (2022); Weber et al. (2024)、そして拡散ベースの手法(スコアマッチングとフローマッチングを含む)Rombach et al. (2022); Yang et al. (2024); Hu et al. (2024); Gao et al. (2024)などのアプローチが、GAN ベースのモデルKang et al. (2023); Sauer et al. (2023)を凌駕している。これらのモデルの多くに共通する要素は、画像の潜在的な離散表現への依存であり、特に言語モデルベースのアプローチでは、連続的な特徴マップが離散的なトークンに量子化される。この量子化は高忠実度の生成において重要となっており、トークン化された画像はモデルの効率性を促進し、生成品質を向上させ、高解像度画像を直接扱う必要性を回避する。最近の研究Yu et al. (2024b); Wang et al. (2024b)は、画像トークナイザーが生成品質に直接影響を与えることを確認しており、生成モデルの有効性は画像トークナイザーの性能と密接に関連していることを示している。

画像トークナイザーの訓練における根本的な課題は、圧縮効率と再構成精度のバランスを取ることである。最近の手法は進歩を示しているが、いくつかの重要な問題が未解決のままである:(1) 多くの現行のトークナイザーは、依然として旧式のGANベースのハイパーパラメータに依存しており、生成と再構成の目的の不一致により、しばしば最適ではない、さらには負の性能をもたらす。(2) ベンチマーキングの取り組みは、しばしば旧式の設定を持つレガシーなVQ-GAN実装に依存しており、偏った比較と限定的な評価精度につながっている。(3) 様々な量子化モデルが導入されているにもかかわらず、それらの相対的な性能とスケーラビリティに関する包括的な分析は限られており、画像トークナイザーの効率的で合理化された訓練方法の開発を妨げている。さらに、FSQ Mentzer et al. (2024)やLFQ Yu et al. (2024b)などの一部の手法は、潜在次元とコードブックサイズを厳密に結びつけており、潜在次元またはコードブックサイズのいずれかを独立してスケーリングすることが不可能である。これらの課題に対処するため、我々は以下の貢献を提案する:

  1. 1.

    グループ化球面量子化(GSQ):我々は、球面コードブック初期化と参照正則化を特徴とする新しいアプローチを導入する。最適化された構成により、GSQは最先端の画像トークナイザーを凌駕し、補助的な損失やGAN正則化を必要とせず、より少ない訓練ステップで高性能を達成する。

  2. 2.

    効率的な潜在空間利用:GSQは、コンパクトな潜在次元と大規模なコードブックサイズで優れた再構成性能を達成する。スケーリング研究により、より低い空間圧縮シナリオでは潜在空間が十分に活用されていないことが明らかになり、GSQが対処できる効率的な潜在空間利用の必要性が強調される。

  3. 3.

    潜在次元によるスケーラビリティ:GSQは、潜在変数を分解してグループ化することで、潜在次元の増加に効果的にスケールする。我々の空間スケーリング研究は、より大きな空間削減シナリオで潜在空間の飽和が発生することを示している。GSQは、より大きな空間削減を可能にし、拡張された潜在空間を活用して量子化器の容量を最大化する。

これらの知見は、画像トークナイザーにおいてより効率的かつスケーラブルな訓練プロトコルの基礎を築くものであり、高忠実度の画像生成タスクのための生成モデルなどの下流タスクの可能性を前進させるものである。また、我々の訓練アプローチにより、32×32\times32 ×の空間ダウンサンプリングを行う画像トークナイザーまで容易に訓練できることを実証している。

2 Related Work

変分オートエンコーダーKingma (2013)は、画像トークン化の基礎的アプローチである。当初は画像を連続的な潜在空間に圧縮するために開発されたが、その後の研究では連続的な表現の改良に焦点が当てられているHiggins et al. (2017); Vahdat & Kautz (2020); Kim et al. (2019); Luhman & Luhman (2022); Bhalodia et al. (2020); Egorov et al. (2021); Su & Wu (2018); Qin & Huang (2024)。しかしながら、これらの画像エンコーディングは、その長所にもかかわらず、強力なKL正則化によって制約されることが多く、生成モデル内の画像トークナイザーとしてはほとんど適用されていない。代わりに、ベクトル量子化を伴う変分オートエンコーダー(VQ-VAE)Van Den Oord et al. (2017); Razavi et al. (2019)が、潜在分布の正則化にコードブックを効果的に使用するため、好まれる選択肢となっている。別の変種として、画像圧縮と離散量子化を同時に達成できる残差ベクトル量子化(RVQ)Zeghidour et al. (2021)がある。

VQ-VAEの成功を基盤として、VQ-GANモデルEsser et al. (2021)は、知覚損失Zhang et al. (2018)と敵対的損失を組み込むことで画像トークナイザーの訓練をさらに進展させ、生成画像の品質を向上させた。その後の研究では、VQ-GANを以下の方向で拡張している:(1) トランスフォーマーベースの構造Yu et al. (2022)やレイヤー正規化Chang et al. (2022)などのアーキテクチャの改良;(2) 有限スカラー量子化Mentzer et al. (2024)、ルックアップフリー量子化器Yu et al. (2024b)などの新しいベクトル量子化器Zhao et al. (2024); Zheng et al. (2022a); Zhu & Soricut (2024); Sadat et al. (2024); Adiban et al. (2023); Yu et al. (2024a); Cao et al. (2023); You et al. (2022); Lee et al. (2022); Adiban et al. (2022); Kumar et al. (2024); Zheng et al. (2022b); Kumar et al. (2024); Li et al. (2024); Luo et al. (2024); Tian et al. (2024); Fifty et al. (2024);そして(3) ResNetベースの知覚損失Weber et al. (2024); Yu et al. (2023)の使用やStyleGAN判別器の組み込みYu et al. (2022; 2024b)など、知覚的改善を伴う洗練された損失関数。本稿は主に、この圧縮指向の画像トークナイザー訓練の流れに焦点を当て、スケーリング挙動とその再構成品質への影響を検討している。

画像のトークン化における代替的な研究の方向性は、圧縮率の最大化ではなく、潜在空間に意味的な視覚表現を埋め込むことに焦点を当てている。このアプローチは通常、DINO Oquab et al. (2024)、CLIP Radford et al. (2021)、MAE He et al. (2022)などの事前学習済み視覚基盤モデルを活用し、それらの学習済み表現を画像トークナイザーの潜在空間に転移させるか、潜在表現を量子化する。初期の研究 Peng et al. (2022); Hu et al. (2023); Park et al. (2023) はこの戦略の実現可能性を示したが、これらのモデルは従来、圧縮駆動型トークナイザーと比較して再構成品質で劣っていた。最近の進歩により、コードブックの初期化の最適化、ネットワークアーキテクチャの改良、高度な知識蒸留法の採用によってこのギャップが縮まり、強力な意味的表現能力を保持しつつ競争力のある再構成忠実度を達成するモデルが生まれている Yu et al. (2024c); Zhu et al. (2024a; b); Li et al. (2024)

3 Methodology

3.1 Preliminary: VQ Image Tokenizer

画像トークナイザーは、エンコーダー EncEnc\operatorname{Enc}roman_Enc とデコーダー DecDec\operatorname{Dec}roman_Dec で構成される。エンコーダーは高解像度の入力画像 𝐈H×W×3𝐈superscript𝐻𝑊3\mathbf{I}\in\mathbb{R}^{H\times W\times 3}bold_I ∈ blackboard_R start_POSTSUPERSCRIPT italic_H × italic_W × 3 end_POSTSUPERSCRIPT を連続的な潜在マップに圧縮する:

𝐙=Enc(𝐈)={ziD}i=1h×w.𝐙Enc𝐈superscriptsubscriptsubscript𝑧𝑖superscript𝐷𝑖1𝑤\mathbf{Z}=\operatorname{Enc}(\mathbf{I})=\{z_{i}\in\mathbb{R}^{D}\}_{i=1}^{h% \times w}.bold_Z = roman_Enc ( bold_I ) = { italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_D end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_h × italic_w end_POSTSUPERSCRIPT . (1)

そして、デコーダーは潜在表現から画像を再構成する、𝐈^=Dec(𝐙)^𝐈Dec𝐙\hat{\mathbf{I}}=\operatorname{Dec}(\mathbf{Z})over^ start_ARG bold_I end_ARG = roman_Dec ( bold_Z )。ダウンサンプリング係数 f=Hh=Ww𝑓𝐻𝑊𝑤f=\frac{H}{h}=\frac{W}{w}italic_f = divide start_ARG italic_H end_ARG start_ARG italic_h end_ARG = divide start_ARG italic_W end_ARG start_ARG italic_w end_ARG は空間的な縮小を表し、圧縮率は =D3f2𝐷3superscript𝑓2\mathcal{R}=\frac{D}{3f^{2}}caligraphic_R = divide start_ARG italic_D end_ARG start_ARG 3 italic_f start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG で与えられる。 ここで、H𝐻Hitalic_HW𝑊Witalic_W は入力画像 𝐈𝐈\mathbf{I}bold_I の高さと幅であり、hhitalic_hw𝑤witalic_wD𝐷Ditalic_D は潜在表現の高さ、幅、次元である。

ベクトル量子化器を用いて、潜在空間は 𝐙𝐙\mathbf{Z}bold_Z をコードブック 𝐂={ciD}i=1V𝐂superscriptsubscriptsubscript𝑐𝑖superscript𝐷𝑖1𝑉\mathbf{C}=\{c_{i}\in\mathbb{R}^{D}\}_{i=1}^{V}bold_C = { italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_D end_POSTSUPERSCRIPT } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_V end_POSTSUPERSCRIPT 内のインデックスにマッピングすることで離散化される。ここで、V𝑉Vitalic_V は語彙サイズである。𝐙𝐙\mathbf{Z}bold_Z からの各潜在ベクトル zisubscript𝑧𝑖z_{i}italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT は、しばしばユークリッド距離に基づく検索操作を用いて、最も近いコードブックエントリーに量子化される:

VQ(zi)=lookup(zi,𝐂)=argminjzicj2.VQsubscript𝑧𝑖lookupsubscript𝑧𝑖𝐂subscript𝑗superscriptnormsubscript𝑧𝑖subscript𝑐𝑗2\operatorname{VQ}(z_{i})=\operatorname{lookup}(z_{i},\mathbf{C})=\arg\min_{j}|% |z_{i}-c_{j}||^{2}.roman_VQ ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) = roman_lookup ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_C ) = roman_arg roman_min start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT | | italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT . (2)

3.2 Simple Scaling with GSQ

より高い空間的削減 f𝑓fitalic_f を追求するには、潜在次元 D𝐷Ditalic_D を増加させて \mathcal{R}caligraphic_R を維持し、再構成の忠実性を保つ必要がある。しかし、D𝐷Ditalic_D を増加させると高次元性の課題が生じ、距離計算の効果が低下し、達成可能な圧縮率が制限される。解決策の一つは、プロダクト量子化を使用することである Vahdat & Kautz (2020); Zheng et al. (2022a; b); Jegou et al. (2010)。そのため、我々は各潜在ベクトル zisubscript𝑧𝑖z_{i}italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTG𝐺Gitalic_G グループに分解する:

GSQ(zi)={lookup(zi(g),𝐂(g))}g=1G,GSQsubscript𝑧𝑖superscriptsubscriptsuperscriptlookupsuperscriptsubscript𝑧𝑖𝑔superscript𝐂𝑔𝑔1𝐺\operatorname{GSQ}(z_{i})=\{\operatorname{lookup}^{*}(z_{i}^{(g)},\mathbf{C}^{% (g)})\}_{g=1}^{G},roman_GSQ ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) = { roman_lookup start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_g ) end_POSTSUPERSCRIPT , bold_C start_POSTSUPERSCRIPT ( italic_g ) end_POSTSUPERSCRIPT ) } start_POSTSUBSCRIPT italic_g = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_G end_POSTSUPERSCRIPT , (3)

ここで、各 zi(g)superscriptsubscript𝑧𝑖𝑔z_{i}^{(g)}italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ( italic_g ) end_POSTSUPERSCRIPTzisubscript𝑧𝑖z_{i}italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT チャンネルを持つサブグループ d𝑑ditalic_d を表し、G×d=D𝐺𝑑𝐷G\times d=Ditalic_G × italic_d = italic_D は再構成の忠実性を損なうことなく効率的な圧縮を可能にする。安定性とパフォーマンスを向上させるため、我々はコードブックエントリを球面一様分布から初期化し、Yu et al. (2022); Zhao et al. (2024) と同様に、ルックアップ時に 2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 正規化を適用することを提案する:

cj(g)subscriptsuperscript𝑐𝑔𝑗\displaystyle c^{(g)}_{j}italic_c start_POSTSUPERSCRIPT ( italic_g ) end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT 2(𝒩(0,1)),similar-toabsentsubscript2𝒩01\displaystyle\sim\ell_{2}(\mathcal{N}(0,1)),∼ roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( caligraphic_N ( 0 , 1 ) ) , (4)
lookup(zi,𝐂)superscriptlookupsubscript𝑧𝑖𝐂\displaystyle\operatorname{lookup}^{*}(z_{i},\mathbf{C})roman_lookup start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , bold_C ) =argminj2(zi)2(cj)2.absentsubscript𝑗superscriptnormsubscript2subscript𝑧𝑖subscript2subscript𝑐𝑗2\displaystyle=\arg\min_{j}||\ell_{2}(z_{i})-\ell_{2}(c_{j})||^{2}.= roman_arg roman_min start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT | | roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_z start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) - roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_c start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) | | start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT . (5)

我々は全グループで共有されるコードブックを採用し、2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT を省略する。G/D{1,2}𝐺𝐷12G/D\in\{1,2\}italic_G / italic_D ∈ { 1 , 2 } の場合、GSQはLFQ Yu et al. (2024b) に縮小され、球面空間が著しく崩壊するため、トレーニング中に追加のエントロピー損失が必要となる Yu et al. (2024b); Zhao et al. (2024)。さらなる議論は付録 C で提供される。

4 Experiments

4.1 Optimized Training for GSQ-VAE

我々はまず、VAEベースのトークナイザーに対する提案したGSQの改良の有効性を調査する。これには、トレーニング構成、補助損失、モデルアーキテクチャ、およびハイパーパラメータ設定の影響が含まれる。すべてのモードでG=1𝐺1G=1italic_G = 1を設定し、1282superscript1282128^{2}128 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度のImageNet Deng et al. (2009)でトレーニングを行った。ダウンサンプリング係数はf=8𝑓8f=8italic_f = 8、語彙サイズはV=8,192𝑉8192V=8{,}192italic_V = 8 , 192、潜在次元はD=8𝐷8D=8italic_D = 8とし、バッチサイズ256、学習率1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTで100kステップ(20エポック)トレーニングした。具体的なハイパーパラメータは付録Dに記載されている。すべてのトークナイザーは、減衰率0.999の指数移動平均を採用した。我々は、Esser et al. (2021)で提案されたLPIPS知覚損失 Zhang et al. (2018)を重み1.0でトレーニングに使用した。

Codebook Init Norm rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
𝒰(1/V,1/V)𝒰1𝑉1𝑉\mathcal{U}(-1/V,1/V)caligraphic_U ( - 1 / italic_V , 1 / italic_V ) 11.37 84 0.12 22.3 0.64 3.38% 237
𝒰(1/V,1/V)𝒰1𝑉1𝑉\mathcal{U}(-1/V,1/V)caligraphic_U ( - 1 / italic_V , 1 / italic_V ) 2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 5.343 113 0.10 23.7 0.71 100% 8077
2(𝒩(0,1))subscript2𝒩01\ell_{2}(\mathcal{N}(0,1))roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( caligraphic_N ( 0 , 1 ) ) 5.343 113 0.12 23.9 0.72 100% 7408
2(𝒩(0,1))subscript2𝒩01\ell_{2}(\mathcal{N}(0,1))roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( caligraphic_N ( 0 , 1 ) ) 1subscript1\ell_{1}roman_ℓ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT 8.312 94 0.12 22.1 0.66 33.9% 566
2(𝒩(0,1))subscript2𝒩01\ell_{2}(\mathcal{N}(0,1))roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( caligraphic_N ( 0 , 1 ) ) 2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT 5.375 113 0.11 23.59 0.71 100% 8062
表1: GSQ-VAE-F8モデルの球面コードブック初期化と正規化ルックアップのアブレーション。ImageNetで1282superscript1282128^{2}128 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度、20エポックでトレーニングされた。PPLは知覚損失を示す。

4.1.1 Effectiveness of Spherical Quantization

ベースラインとコードブック初期化。 1は、我々の球面一様分布コードブック初期化が、トレーニング中のコードブック使用率を約100%まで大幅に改善したことを示している。Yu et al. (2022); Zhao et al. (2024)の先行研究で言及された2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT正規化の使用は、コードブック使用率の安定化(特に大規模なコードブックにおいて)とすべてのコードが通常等しくなることを保証するために重要である。 7に示すように、我々のアプローチはトレーニング全体を通じて約100%のコードブック利用率を維持し、これによりrFIDを11.37から5.375に削減することができた。また、2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTを用いることで、コードブック使用の知覚損失は語彙サイズに近くなる。

Refer to caption
図2: VAE-F8トレーニングにおける量子化器の比較。VQは一様分布で初期化されている。すべてのモデルは同じバックボーン、潜在次元、および語彙サイズを持つ。
Quantizer Comparisons.

提案された球面コードブック初期化方法と2subscript2\ell_{2}roman_ℓ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT正規化ルックアップを採用することで、GSQ(G𝐺Gitalic_Gが1の場合、VQと類似)はFSQ Mentzer et al. (2024)を上回ることができ、G𝐺Gitalic_Gを8にスケーリングすることで、GSQはRVQ Zeghidour et al. (2021)を上回ることができる。 2に示すように、ここでのすべてのモデルは同じ潜在次元8と語彙サイズ8,192を持つ。

Codebook auxiliary loss.

我々は、エントロピー損失 Yu et al. (2024b); Luo et al. (2024)やTCR損失 Zhang et al. (2023)などのコードブック補助損失の有効性を調査した。 2は、これらの損失がトークナイザーのパフォーマンスに悪影響を与え、コードブックの使用を妨げることを示している。エントロピー損失は最小の重み(0.01)でわずかな改善をもたらすのみであった。これらの損失の限られた有用性とトレーニング中の大規模な語彙サイズに対する計算コストを考慮し、我々はそれらを使用しないことを選択した。また、後の結果は、我々の方法がこれらの損失なしで512kまでの語彙サイズに対して100%のコードブック使用率を維持できることを示している。

Entropy Loss TCR Loss rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
0.01 5.281 114 0.12 23.9 0.72 99.8% 7397
0.1 5.687 112 0.12 23.7 0.71 73.5% 5399
0.5 7.906 97 0.11 22.8 0.67 8.83% 620
0.01 9.937 82 0.15 22.5 0.65 81.1% 830
5.375 113 0.11 23.59 0.71 100% 8062
表2: GSQ-VAE-F8のコードブック補助損失のアブレーション。我々の方法により、コードブック使用率は常に100%となるため、トレーニングにこの補助損失を使用する必要はない。

4.1.2 Ablation of Network Backbone

我々は、Adaptive Group Normalization(AdaLNとしても知られる) Huang & Belongie (2017)とDepth2Scale Yu et al. (2024b)の効果を含む、ベースラインアーキテクチャのバリエーションを探索した。 3に詳述されているように、驚くべきことに、これらのモジュールは再構成の知覚品質を低下させ、rFIDを増加させたが、ピクセル単位の誤差は減少させた。 我々はAdaptive Group Normalizationをデフォルトとして使用し、セクション 4.2.4でGANのトレーニングにおけるDepth2Scaleをさらに調査した。

AGN Depth2Scale rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
5.375 113 0.11 23.59 0.71 100% 8062
5.406 113 0.10 23.85 0.71 100% 7457
5.562 113 0.11 23.93 0.72 100% 7410
5.531 112 0.11 23.94 0.72 100% 7452
表3: GSQ-VAE-F8におけるAdaptive Group Norm (AGN)とDepth2Scaleの使用のアブレーション。
Type λ𝐩subscript𝜆𝐩\mathbf{\lambda_{p}}italic_λ start_POSTSUBSCRIPT bold_p end_POSTSUBSCRIPT λ𝐫𝐞𝐜subscript𝜆𝐫𝐞𝐜\mathbf{\lambda_{rec}}italic_λ start_POSTSUBSCRIPT bold_rec end_POSTSUBSCRIPT rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
LPIPS 0.1 1.0 7.062 98 0.12 25.26 0.75 100% 7013
0.1 5.0 12.18 73 0.14 25.68 0.75 87% 5673
1.0 1.0 5.406 113 0.10 23.85 0.71 100% 7457
1.0 5.0 6.156 105 0,11 24.93 0.74 100% 7192
10 1.0 6.093 115 0.11 22.41 0.68 99% 7417
Dino 0.1 1.0 7.312 90 0.15 24.91 0.72 100% 6457
0.1 5.0 4.250 112 0.12 23.12 0.65 100% 7004
0.7 4.0 4.343 110 0.13 23.66 0.67 100% 6887
ResNet 0.1 1.0 31.37 53 0.19 21.70 0.57 37% 2657
0.1 5.0 9.625 84 0.15 23.91 0.68 73% 5001
0.7 4.0 204 1.60 0.56 20.16 0.41 77% 5028
VGG-16 0.1 1.0 4.468 112 0.14 22.64 0.63 100% 6926
0.1 5.0 5.031 111 0.14 21.97 0.61 100% 6986
0.7 4.0 4.906 103 0.15 24.17 0.69 100% 6759
表4: VAE-F8トレーニングにおける知覚損失と重みのアブレーション。λpsubscript𝜆𝑝\lambda_{p}italic_λ start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPTλrecsubscript𝜆𝑟𝑒𝑐\lambda_{rec}italic_λ start_POSTSUBSCRIPT italic_r italic_e italic_c end_POSTSUBSCRIPTは知覚損失と再構成損失の重みである。

4.1.3 Ablation of Perceptual Loss Selection

我々は、LPIPS Zhang et al. (2018)とlogitベースの知覚損失を含む様々な知覚損失の構成を探索した。これには、ResNet He et al. (2016)、VGG Simonyan & Zisserman (2015)、Dino Oquab et al. (2024)などの異なるバックボーンアーキテクチャを用いた。 4に示すように、我々の調査結果は、ResNetベースのlogit損失が知覚損失として効果的でないことを示しており、これは以前の調査結果 Weber et al. (2024)と矛盾している。対照的に、DinoとVGGベースのlogit損失は低いrFIDスコアをもたらし、その可能性を示した。しかし、我々はLPIPSを選択した。これは、rFIDとピクセル単位の誤差のバランスを効果的に取ることができるためである。我々は、詳細なハイパーパラメータチューニングを通じてさらに最適化することで、より強力な知覚損失のパフォーマンスを向上させることができると予想している。

4.1.4 Hyper-parameters optimization for GSQ-VAE

Optimizers.

ハイパーパラメータの選択、特にAdamにおけるβ𝛽\betaitalic_βは、トレーニングダイナミクスに大きく影響する。我々は0から0.9までの範囲のβ𝛽\betaitalic_β値の組み合わせを評価し、結果を 5に報告した。我々の実験は、より高いβ𝛽\betaitalic_βが常に安定したトレーニングを促進することで、より良い再構成性能をもたらすことを明らかにした。我々はまた、5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTの重み減衰値を評価し、結果は高いβ𝛽\betaitalic_βを使用する場合、5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPTの重み減衰が全体的に最も良いパフォーマンスを示すことを示した。したがって、我々は最適なトレーニング安定性のために、0.05の重み減衰を伴うβ=[0.9,0.99]𝛽0.90.99\beta=[0.9,0.99]italic_β = [ 0.9 , 0.99 ]を使用する。

β𝛽\betaitalic_β Weight Decay rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
(0, 0.99) 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.562 113 0.11 23.9 0.72 100% 7410
1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.812 107 0.11 23.9 0.71 100% 7393
(0.5, 0.99) 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.750 111 0.10 23.85 0.71 100% 7492
1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.375 109 0.09 23.85 0.71 100% 7421
(0.9, 0.95) 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.406 113 0.10 23.85 0.71 100% 7457
1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.562 113 0.10 23.85 0.71 100% 7407
(0.9, 0.99) 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.343 113 0.10 23.89 0.71 100% 7462
1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.562 112 0.10 23.86 0.71 100% 7404
(0.9, 0.999) 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.406 112 0.10 23.87 0.71 100% 7472
1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.468 111 0.10 23.88 0.71 100% 7411
表5: GSQ-VAE-F8トレーニングにおけるオプティマイザーのβ𝛽\betaitalic_βと重み減衰のアブレーション。すべてのモデルでコードブック使用率は100%である。
Warm-up Decay Final L.R. rFID IS LPIPS PSNR SSIM Usage PPL
\downarrow \uparrow \downarrow \uparrow \uparrow \uparrow \uparrow
0 1e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.343 113 0.10 23.89 0.71 100% 7462
5k 1e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 5.406 114 0.10 23.78 0.72 100% 7429
5k 75k 1e51superscript𝑒51e^{-5}1 italic_e start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT 5.750 110 0.10 23.67 0.71 100% 7344
5k 95k 1e51superscript𝑒51e^{-5}1 italic_e start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT 5.781 109 0.09 23.76 0.71 100% 7355
5k 95k 0 5.625 111 0.10 23.73 0.71 100% 7343
5k 10% at 75k 1e51superscript𝑒51e^{-5}1 italic_e start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT 5.468 112 0.10 23.83 0.71 100% 7389
表6: GSQ-VAE-F8トレーニングにおける学習率スケジューラーのアブレーション。最大学習率は1e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTである。すべてのモデルでコードブック使用率は100%である。
Learning rate scheduler.

最近の研究では、トークナイザーのトレーニングに様々な学習率スケジューラーが使用されている。我

4.2 Optimized Training for GSQ-GAN

次に、我々はディスクリミネータと敵対的損失を組み込み、ImageNet Deng et al. (2009) での1282superscript1282128^{2}128 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度、最大80,000ステップでのGSQ-GANトレーニングの設定を検証した。VAEとディスクリミネータの学習率は1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTである。詳細なハイパーパラメータは付録Eに記載されている。

Discriminator Adv. Discr. rFID IS PSNR SSIM Usage PPL
loss loss \downarrow \uparrow \uparrow \uparrow \uparrow \uparrow
5.343 113 23.89 0.71 100% 7462
NLD Isola et al. (2017) Hinge Vanilla 45.2 25 20.6 0.58 96.4% 6976
Hinge Hinge 24.0 49 21.4 0.62 98.5% 7424
Hinge Non-Sat. 68.5 14 19.3 0.51 58.2% 4069
Non-Sat. Vanilla 9.562 86 22.08 0.66 100% 7558
Non-Sat. Hinge 11.3 80 22.0 0.66 100% 7516
Non-Sat. Non-Sat. 23.7 50 21 0.62 99.0% 7451
SGD (1k) Karras et al. (2019) Hinge Hinge 18.1 63 21.65 0.64 100% 6104
Non-Sat. Vanilla 19.1 62 21.57 0.64 100% 6061
Non-Sat. Hinge 27.1 46 21.42 64.96 100% 5514
DD Sauer et al. (2023) Hinge Hinge 1.976 116 21.78 0.64 100% 7546
Non-Sat. Vanilla 1.906 117 22.01 0.65 100% 7533
Non-Sat. Hinge 1.867 117 22.12 0.66 100% 7525
OpenMagViT2 w/ 1.75M steps 1.180 Luo et al. (2024)
表7: 1282 ImageNetで80,000ステップ訓練されたGSQ-GAN-F8モデル。SGD-GANモデルは、トレーニング中の𝑁𝑎𝑁𝑁𝑎𝑁\mathit{NaN}italic_NaN損失の失敗により、1,000ステップで評価されている。

4.2.1 Ablations of Discriminator and Combinations of Adversarial Loss

我々は3種類のディスクリミネータを評価した:N層ディスクリミネータ(NLDIsola et al. (2017)、StyleGANディスクリミネータ(SGDKarras et al. (2019)、およびDinoディスクリミネータ(DDSauer et al. (2023)。また、3種類の敵対的損失タイプを比較した:バニラ非飽和(V)、ヒンジ(H)、および改良非飽和(N)であり、結果として6つの敵対的-ディスクリミネータ損失設定の組み合わせとなった。

不適切なGAN損失を選択すると、N層ディスクリミネータとDinoディスクリミネータのパフォーマンスに悪影響を及ぼした。 7に示すように、Dinoディスクリミネータを使用して訓練されたすべてのGANモデルは、一貫してN層ディスクリミネータを使用したGANを上回るパフォーマンスを示した。N層ディスクリミネータに最適な損失はNV損失であり、rFID 9.562を達成し、DinoディスクリミネータにはNHが最適で、rFID 1.867に達した。 さらに、我々はDinoディスクリミネータのデータ拡張 Sauer et al. (2023) を検証した。 8に示すように、色彩拡張、平行移動、およびカットアウトの組み合わせを使用することで、再構成性能が向上した。

Discr. Data Aug. rFID-1282 \downarrow rFID-2562 \downarrow
1.953 0.824
Color+Trans 2.000 0.783
Cutout+Color+Trans 1.867 0.824
Resize+Color+Trans 2.000 0.832
表8: Dinoディスクリミネータにおけるデータ拡張の検証。
Discr. Loss β𝛽\betaitalic_β λadvsubscript𝜆𝑎𝑑𝑣\lambda_{adv}italic_λ start_POSTSUBSCRIPT italic_a italic_d italic_v end_POSTSUBSCRIPT rFID \downarrow IS \uparrow PSNR \uparrow SSIM \uparrow
NLD NH (0, 0.99) 0.1 6.687 96.5 22.35 0.67
NLD NH (0.5, 0.9) 0.1 11.31 80.0 22.01 0.66
NLD NH (0.5, 0.9) 0.5 106 8.68 15.40 0.29
NLD NH (0.9, 0.95) 0.1 3.578 114 22.74 0.69
NLD NH (0.9, 0.99) 0.1 3.515 114 22.85 0.69
NLD NH (0.9, 0.99) 0.5 3.718 114 22.83 0.69
NLD NV (0.5, 0.9) 0.1 9.562 86 22.08 0.66
NLD NV (0.9, 0.99) 0.1 3.390 102 22.88 0.69
NLD NV (0.9, 0.99) 0.5 3.515 114 22.86 0.69
DD NH (0.5, 0.9) 0.1 1.867 117 22.12 0.66
DD NH (0.9, 0.99) 0.1 1.859 118 22.12 0.66
DD NH (0.9, 0.99) 0.5 2.453 106 20.66 0.59
DD NV (0.5, 0.9) 0.1 1.906 117 22.01 0.65
DD NV (0.9, 0.99) 0.1 1.820 117 22.02 0.65
DD NV (0.9, 0.99) 0.5 2.671 102 20.28 0.57
表9: GSQ-GAN-F8トレーニングにおけるAdamのβ𝛽\betaitalic_βと敵対的損失の重みの検証。λadvsubscript𝜆𝑎𝑑𝑣\lambda_{adv}italic_λ start_POSTSUBSCRIPT italic_a italic_d italic_v end_POSTSUBSCRIPTは敵対的損失の重みである。

4.2.2 Hyper-parameters Optimization for GSQ-GAN

ディスクリミネータの最適化とと敵対的損失の重み。 我々はN層ディスクリミネータとDinoディスクリミネータのオプティマイザのハイパーパラメータ(β𝛽\betaitalic_β)について検証を行った。 9に示す結果は、より高いβ𝛽\betaitalic_β値(β=[0.9,0.99]𝛽0.90.99\beta=[0.9,0.99]italic_β = [ 0.9 , 0.99 ])が両方のディスクリミネータタイプでより安定したトレーニングダイナミクスをもたらすことを示している。我々は残りの実験でこの設定を使用した。さらに、敵対的損失の重みを変更しても顕著な利点は見られなかったため、敵対的損失の重みを0.1に設定した。

Batch size Learning rate rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
256 1e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.859 118 0.08 22.12 0.66 100% 7528
256 2e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.796 119 0.07 22.28 0.66 100% 7525
256 3e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.890 118 0.07 22.36 0.67 100% 7544
512 1e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.671 120 0.08 22.08 0.66 100% 7494
512 2e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.578 122 0.07 22.25 0.66 100% 7538
768 2e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.593 121 0.07 22.32 0.67 100% 7513
768 3e4superscript𝑒4e^{-4}italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.648 122 0.07 22.31 0.67 100% 7520
表10: GSQ-GAN-F8トレーニングのバッチサイズと学習率の検証。DD-NHディスクリミネータと損失の組み合わせを使用。
Learning Rates and Batch Size.

我々はバッチサイズと学習率の設定を調査し、3つの異なるバッチサイズと学習率を比較した。 10に示す結果は、より大きなバッチサイズと増加した学習率が安定性と収束速度を改善し、したがってより大きなバッチサイズでGANトレーニングを加速することを可能にしたことを示している。

4.2.3 GAN Regularization Ablations

我々はディスクリミネータトレーニングを安定化するためのいくつかの正則化技術を探索した:勾配ペナルティ Gulrajani et al. (2017)、LeCAM正則化 Yu et al. (2023)、およびオートエンコーダのウォームアップ、さらに適応的ディスクリミネータ損失重み Yu et al. (2022)、重み減衰、および勾配クリッピング。 11に我々の発見をまとめている。

一定のλadvsubscript𝜆𝑎𝑑𝑣\lambda_{adv}italic_λ start_POSTSUBSCRIPT italic_a italic_d italic_v end_POSTSUBSCRIPTを使用することが最も良い性能を示し、適応的重み付け Esser et al. (2021) からは利点が観察されなかった。N層ディスクリミネータに追加された勾配ペナルティは効果がなく、LeCAMはわずかに結果を改善した。オートエンコーダのウォームアップ(ディスクリミネータのトレーニングが20,000ステップ後に開始)は安定性やパフォーマンスを改善しなかった。2.0での勾配クリッピング(デフォルト)は1.0よりも効果的であり、1e41superscript𝑒41e^{-4}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPTの重み減衰はN層ディスクリミネータを改善したが、Dinoディスクリミネータをわずかに劣化させた。

正則化を用いたStyleGANディスクリミネータのトレーニングは𝑁𝑎𝑁𝑁𝑎𝑁\mathit{NaN}italic_NaNの問題に対処できなかった。我々はStyleGANディスクリミネータと勾配ペナルティの組み合わせも試した。しかし、勾配ペナルティを用いたトレーニングはおよそ4倍遅くなったため、80,000ステップのトレーニング時間内にトレーニングを完了することができなかった(StyleGANディスクリミネータの詳細については付録Eを参照)。

Discr. WD AW rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow PPL \uparrow
NLD-NV 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 3.390 114 0.06 22.8 0.69 7594
NLD-NV + GC 1.0 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 3.453 114 0.06 22.8 0.69 7483
NLD-NV 1e41superscript𝑒4{1e^{-4}}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 3.296 115 0.06 22.86 0.69 7494
NLD-NV 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 4.437 112 0.07 23.34 0.70 7476
NLD-NV + GP 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.750 110 0.09 23.78 0.71 7447
NLD-NV + LeCAM 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 3.546 113 0.07 22.89 0.69 7455
DD-NH 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 1.859 118 0.08 22.12 0.66 7528
DD-NH 1e41superscript𝑒4{1e^{-4}}1 italic_e start_POSTSUPERSCRIPT - 4 end_POSTSUPERSCRIPT 1.914 118 0.08 22.12 0.66 7514
DD-NH 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 2.687 117 0.07 23.40 0.70 7464
DD-NH + AE-warmup 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 2.000 116 0.08 22.22 0.66 7484
DD-NH + LeCAM 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 5.250 111 0.08 23.79 0.71 7437
SGD-NH 5e25superscript𝑒25e^{-2}5 italic_e start_POSTSUPERSCRIPT - 2 end_POSTSUPERSCRIPT 3.593 110 0.07 23.61 0.70 7470
表11: GSQ-GAN-F8トレーニングにおけるGANの正則化技術の検証研究。WDは重み減衰、AWは敵対的損失適応重み Esser et al. (2021)、GCは勾配クリップを表す。すべてのモードはデフォルトで勾配クリップ2.0で訓練されている。GPは勾配ペナルティ、LeCAMの重みは有効な場合0.001である。ウォームアップを使用する場合、ディスクリミネータは20,000イテレーション後に更新を開始する。
Data Aug D2S Attention
rFID\downarrow
128
rFID\downarrow
256
1.609 0.675
1.578 0.652
1.570 0.660
1.531 0.605

4.3 Scaling Behaviors of GSQ-GAN

本節では、潜在次元とコードブック語彙サイズの変化が再構成品質にどのように影響するかを調査する。本研究のすべてのモデルは、2562superscript2562256^{2}256 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPTの解像度でバッチサイズ512、50,000ステップ(20エポック)で訓練された。詳細なハイパーパラメータは付録Fに記載されている。

Refer to caption
図3: GSQ-GANのより広くより深いネットワークにおける注意ブロックの有無によるアブレーション。モデルはImageNetの2562superscript2562256^{2}256 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度で訓練されている。

4.3.1 Network Capacity.

我々は、ネットワーク容量が再構成の忠実度に与える影響を調査し、特に幅と深さに注目した。幅のスケーリングは畳み込み層のチャンネル数を増やすことで実装し、深さのスケーリングは追加の畳み込みブロックを加えることで実装したYu et al. (2024b) 3にまとめられた結果は、ネットワークの幅と深さが増加するにつれて再構成が一貫して改善されることを示している。Esser et al. (2021)で使用されているように、より広いネットワーク内に注意モジュールを統合することで、さらなる改善が得られた。

Refer to caption
(a) 8×\times×の空間圧縮におけるGSQの潜在次元と語彙サイズのスケーリング。
Refer to caption
(b) 上図と同じスケーリング挙動を、語彙サイズを対数スケールで表示。
図4: 上図は8×\times×の空間圧縮におけるGSQの潜在次元とコードブックサイズのスケーリングを示しており、より小さな潜在次元が再構成を改善することから、F8ダウンサンプリングでは潜在空間が飽和していないことを示唆している。潜在空間サイズを最適化することでさらにパフォーマンスが向上する。下図は語彙サイズを対数スケールで示した同じ傾向を表しており、語彙サイズの増加に伴う効果的なスケーリングを示している。すべてのモデルはG=1𝐺1G=1italic_G = 1で訓練され、潜在分解はなく、これはVQベースの手法と同等である。すべてのモデルはImageNetの2562superscript2562256^{2}256 start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT解像度で訓練されている。

4.3.2 Scaling of Latent Space and Vocabulary.

次に、我々は潜在次元とコードブック語彙サイズのスケーリングの影響を調査する。モデルは潜在次元23superscript232^{3}2 start_POSTSUPERSCRIPT 3 end_POSTSUPERSCRIPT24superscript242^{4}2 start_POSTSUPERSCRIPT 4 end_POSTSUPERSCRIPT25superscript252^{5}2 start_POSTSUPERSCRIPT 5 end_POSTSUPERSCRIPT26superscript262^{6}2 start_POSTSUPERSCRIPT 6 end_POSTSUPERSCRIPTで訓練され、それぞれ8k、16k、64k、256k、512kの語彙サイズと組み合わされた。 4 4の結果は、より大きな語彙サイズと低い潜在次元の組み合わせが、一貫してより優れた再構成性能をもたらすことを示している。特筆すべきは、潜在次元8と語彙サイズ512kのモデルが最先端の画像トークナイザーを凌駕し、わずか50,000訓練ステップ(20エポック)で顕著な結果を達成したことである。

これらの発見は、量子化器の表現能力を向上させる上で大規模なコードブック語彙の重要性を強調している。この傾向は理論的な期待と一致しており、 4に示されているように、GSQ-GANの表現能力は基本的にlogV𝑉\log Vroman_log italic_Vによって制限されている。ここでV𝑉Vitalic_Vは語彙サイズである。このパターンは構成全体で一貫しており、VQに関する先行研究(例えば、Yu et al. (2024b) Yu et al. (2022) Sun et al. (2024))と対照的である。なぜなら、それらはVQ-GANトレーニングの最適化された構成を採用しておらず、モデルトレーニングの劣化がスケーリング挙動の観察にバイアスをかけているためである。

我々の実験は、低次元の潜在空間がより良い再構成忠実度をもたらすことを明らかにした。付録Cで詳述されているように、低次元の潜在空間はコードブックの更新に使用される正確なユークリッド距離の計算に有利である。この洞察は、LFQ Yu et al. (2024b)、FSQ Mentzer et al. (2024)、そして我々が提案するGSQなどの分解されたベクトル量子化アプローチの成功を支持している。

興味深いことに、直感的には巨大な潜在空間のために、より大きな潜在次元がより良いパフォーマンスをもたらすと予想されるかもしれない。我々の結果は、高次元空間がしばしば十分に活用されていないことを示唆している。これは重要である。なぜなら、より高い空間ダウンサンプリング比での効果的な圧縮には、より大きな潜在次元が必要だからである。しかし、通常のVQのようなモデルは、高い空間圧縮の課題に対して潜在次元を効果的にスケールすることができない。 5に示されているように、F8からF16に移行する際に潜在次元を増やすことで再構成品質が向上する。しかし、ある点(ここではF16-D16)を超えると、モデルは次元の呪いとして知られる制限に直面する。対照的に、GSQで次元分解を使用すると、G=2𝐺2G=2italic_G = 2でさえ、再構成性能が魅力的に向上する。

4.3.3 Latent Space and Downsample Factor, and Better Scaling with GSQ

次元のスケーリングの困難さに関する制限に対処するために、我々はGSQを使用して大きな潜在次元を低次元に分解し、再構成忠実度をより効果的に最大化する。 13に示されているように、潜在ベクトルを複数のグループに分解することで、GSQは全体的な潜在次元や語彙サイズを変更することなく、再構成性能を大幅に向上させる。この結果は、GSQが高次元潜在空間の表現力を活用する能力を確認し、モデルの忠実度に大きな利益をもたらすことを示している。

Refer to caption
図5: GSQ-GAN-F16トレーニングにおける潜在次元のスケーリング。F16空間圧縮では潜在空間が飽和している。潜在容量を増やすために潜在次元を増やすことで、再構成性能の向上が期待される。潜在分解を伴うGSQのみが、より高い潜在次元にスケールアップできる。

特筆すべきは、モデルがD=64𝐷64D=64italic_D = 64G=16𝐺16G=16italic_G = 16でほぼロスレスの再構成を達成し、理論的な最大性能に近づいていることである。圧縮率は非常に低く実用的な価値は乏しいが、GSQの顕著なスケーラビリティと表現力を強調している。

<td class="ltx_td lt </section>
Models G×d𝐺𝑑G\times ditalic_G × italic_d rFID \downarrow IS \uparrow LPIPS \downarrow PSNR \uparrow SSIM \uparrow Usage \uparrow PPL \uparrow
Luo et al. (2024)
LFQ F16-D18
V=256k𝑉256kV=256\text{k}italic_V = 256 k
18×118118\times 118 × 1 1.17
GSQ F8-D64 V=8k𝑉8kV=8\text{k}italic_V = 8 k 1×641641\times 641 × 64 0.63 205 0.08 22.95 0.67 99.87% 8,055
2×322322\times 322 × 32 0.32