Scaling Image Tokenizers with Grouped Spherical Quantization
Abstract
ビジョントークナイザーは、その拡張性とコンパクト性により大きな注目を集めている。しかし、これまでの研究は旧来のGANベースのハイパーパラメータに依存し、偏った比較を行い、スケーリング挙動の包括的な分析が不足していた。 これらの問題に取り組むため、我々は球面コードブック初期化と参照正則化を特徴とするGrouped Spherical Quantization (GSQ)を導入し、コードブックの潜在空間を球面上に制約する。画像トークナイザーの訓練戦略に関する我々の実証的分析は、GSQ-GANが最先端の手法と比較して、より少ない訓練反復で優れた再構成品質を達成することを示しており、スケーリング研究の堅固な基盤を提供している。これを基に、我々はGSQのスケーリング挙動、特に潜在次元、コードブックサイズ、圧縮率について、そしてそれらがモデルの性能に与える影響を体系的に検証した。我々の発見は、高空間圧縮レベルと低空間圧縮レベルにおいて異なる挙動を示し、高次元潜在空間の表現における課題を浮き彫りにしている。我々は、GSQが高次元潜在空間をコンパクトな低次元空間に再構成できることを示し、これにより品質を向上させつつ効率的なスケーリングが可能になる。結果として、GSQ-GANは16倍のダウンサンプリングで0.50の再構成FID (rFID)を達成した。
1 Introduction
画像および動画の生成モデルにおける最近の進歩は、大きな成功を収めている。オートリグレッシブモデルSun et al. (2024); Kondratyuk et al. (2024); Wang et al. (2024b)、マスク言語モデルYu et al. (2024b; 2023); Chang et al. (2022); Weber et al. (2024)、そして拡散ベースの手法(スコアマッチングとフローマッチングを含む)Rombach et al. (2022); Yang et al. (2024); Hu et al. (2024); Gao et al. (2024)などのアプローチが、GAN ベースのモデルKang et al. (2023); Sauer et al. (2023)を凌駕している。これらのモデルの多くに共通する要素は、画像の潜在的な離散表現への依存であり、特に言語モデルベースのアプローチでは、連続的な特徴マップが離散的なトークンに量子化される。この量子化は高忠実度の生成において重要となっており、トークン化された画像はモデルの効率性を促進し、生成品質を向上させ、高解像度画像を直接扱う必要性を回避する。最近の研究Yu et al. (2024b); Wang et al. (2024b)は、画像トークナイザーが生成品質に直接影響を与えることを確認しており、生成モデルの有効性は画像トークナイザーの性能と密接に関連していることを示している。
画像トークナイザーの訓練における根本的な課題は、圧縮効率と再構成精度のバランスを取ることである。最近の手法は進歩を示しているが、いくつかの重要な問題が未解決のままである:(1) 多くの現行のトークナイザーは、依然として旧式のGANベースのハイパーパラメータに依存しており、生成と再構成の目的の不一致により、しばしば最適ではない、さらには負の性能をもたらす。(2) ベンチマーキングの取り組みは、しばしば旧式の設定を持つレガシーなVQ-GAN実装に依存しており、偏った比較と限定的な評価精度につながっている。(3) 様々な量子化モデルが導入されているにもかかわらず、それらの相対的な性能とスケーラビリティに関する包括的な分析は限られており、画像トークナイザーの効率的で合理化された訓練方法の開発を妨げている。さらに、FSQ Mentzer et al. (2024)やLFQ Yu et al. (2024b)などの一部の手法は、潜在次元とコードブックサイズを厳密に結びつけており、潜在次元またはコードブックサイズのいずれかを独立してスケーリングすることが不可能である。これらの課題に対処するため、我々は以下の貢献を提案する:
-
1.
グループ化球面量子化(GSQ):我々は、球面コードブック初期化と参照正則化を特徴とする新しいアプローチを導入する。最適化された構成により、GSQは最先端の画像トークナイザーを凌駕し、補助的な損失やGAN正則化を必要とせず、より少ない訓練ステップで高性能を達成する。
-
2.
効率的な潜在空間利用:GSQは、コンパクトな潜在次元と大規模なコードブックサイズで優れた再構成性能を達成する。スケーリング研究により、より低い空間圧縮シナリオでは潜在空間が十分に活用されていないことが明らかになり、GSQが対処できる効率的な潜在空間利用の必要性が強調される。
-
3.
潜在次元によるスケーラビリティ:GSQは、潜在変数を分解してグループ化することで、潜在次元の増加に効果的にスケールする。我々の空間スケーリング研究は、より大きな空間削減シナリオで潜在空間の飽和が発生することを示している。GSQは、より大きな空間削減を可能にし、拡張された潜在空間を活用して量子化器の容量を最大化する。
これらの知見は、画像トークナイザーにおいてより効率的かつスケーラブルな訓練プロトコルの基礎を築くものであり、高忠実度の画像生成タスクのための生成モデルなどの下流タスクの可能性を前進させるものである。また、我々の訓練アプローチにより、の空間ダウンサンプリングを行う画像トークナイザーまで容易に訓練できることを実証している。
2 Related Work
変分オートエンコーダーKingma (2013)は、画像トークン化の基礎的アプローチである。当初は画像を連続的な潜在空間に圧縮するために開発されたが、その後の研究では連続的な表現の改良に焦点が当てられているHiggins et al. (2017); Vahdat & Kautz (2020); Kim et al. (2019); Luhman & Luhman (2022); Bhalodia et al. (2020); Egorov et al. (2021); Su & Wu (2018); Qin & Huang (2024)。しかしながら、これらの画像エンコーディングは、その長所にもかかわらず、強力なKL正則化によって制約されることが多く、生成モデル内の画像トークナイザーとしてはほとんど適用されていない。代わりに、ベクトル量子化を伴う変分オートエンコーダー(VQ-VAE)Van Den Oord et al. (2017); Razavi et al. (2019)が、潜在分布の正則化にコードブックを効果的に使用するため、好まれる選択肢となっている。別の変種として、画像圧縮と離散量子化を同時に達成できる残差ベクトル量子化(RVQ)Zeghidour et al. (2021)がある。
VQ-VAEの成功を基盤として、VQ-GANモデルEsser et al. (2021)は、知覚損失Zhang et al. (2018)と敵対的損失を組み込むことで画像トークナイザーの訓練をさらに進展させ、生成画像の品質を向上させた。その後の研究では、VQ-GANを以下の方向で拡張している:(1) トランスフォーマーベースの構造Yu et al. (2022)やレイヤー正規化Chang et al. (2022)などのアーキテクチャの改良;(2) 有限スカラー量子化Mentzer et al. (2024)、ルックアップフリー量子化器Yu et al. (2024b)などの新しいベクトル量子化器Zhao et al. (2024); Zheng et al. (2022a); Zhu & Soricut (2024); Sadat et al. (2024); Adiban et al. (2023); Yu et al. (2024a); Cao et al. (2023); You et al. (2022); Lee et al. (2022); Adiban et al. (2022); Kumar et al. (2024); Zheng et al. (2022b); Kumar et al. (2024); Li et al. (2024); Luo et al. (2024); Tian et al. (2024); Fifty et al. (2024);そして(3) ResNetベースの知覚損失Weber et al. (2024); Yu et al. (2023)の使用やStyleGAN判別器の組み込みYu et al. (2022; 2024b)など、知覚的改善を伴う洗練された損失関数。本稿は主に、この圧縮指向の画像トークナイザー訓練の流れに焦点を当て、スケーリング挙動とその再構成品質への影響を検討している。
画像のトークン化における代替的な研究の方向性は、圧縮率の最大化ではなく、潜在空間に意味的な視覚表現を埋め込むことに焦点を当てている。このアプローチは通常、DINO Oquab et al. (2024)、CLIP Radford et al. (2021)、MAE He et al. (2022)などの事前学習済み視覚基盤モデルを活用し、それらの学習済み表現を画像トークナイザーの潜在空間に転移させるか、潜在表現を量子化する。初期の研究 Peng et al. (2022); Hu et al. (2023); Park et al. (2023) はこの戦略の実現可能性を示したが、これらのモデルは従来、圧縮駆動型トークナイザーと比較して再構成品質で劣っていた。最近の進歩により、コードブックの初期化の最適化、ネットワークアーキテクチャの改良、高度な知識蒸留法の採用によってこのギャップが縮まり、強力な意味的表現能力を保持しつつ競争力のある再構成忠実度を達成するモデルが生まれている Yu et al. (2024c); Zhu et al. (2024a; b); Li et al. (2024)。
3 Methodology
3.1 Preliminary: VQ Image Tokenizer
画像トークナイザーは、エンコーダー とデコーダー で構成される。エンコーダーは高解像度の入力画像 を連続的な潜在マップに圧縮する:
(1) |
そして、デコーダーは潜在表現から画像を再構成する、。ダウンサンプリング係数 は空間的な縮小を表し、圧縮率は で与えられる。 ここで、、 は入力画像 の高さと幅であり、、、 は潜在表現の高さ、幅、次元である。
ベクトル量子化器を用いて、潜在空間は をコードブック 内のインデックスにマッピングすることで離散化される。ここで、 は語彙サイズである。 からの各潜在ベクトル は、しばしばユークリッド距離に基づく検索操作を用いて、最も近いコードブックエントリーに量子化される:
(2) |
3.2 Simple Scaling with GSQ
より高い空間的削減 を追求するには、潜在次元 を増加させて を維持し、再構成の忠実性を保つ必要がある。しかし、 を増加させると高次元性の課題が生じ、距離計算の効果が低下し、達成可能な圧縮率が制限される。解決策の一つは、プロダクト量子化を使用することである Vahdat & Kautz (2020); Zheng et al. (2022a; b); Jegou et al. (2010)。そのため、我々は各潜在ベクトル を グループに分解する:
(3) |
ここで、各 は チャンネルを持つサブグループ を表し、 は再構成の忠実性を損なうことなく効率的な圧縮を可能にする。安定性とパフォーマンスを向上させるため、我々はコードブックエントリを球面一様分布から初期化し、Yu et al. (2022); Zhao et al. (2024) と同様に、ルックアップ時に 正規化を適用することを提案する:
(4) | ||||
(5) |
我々は全グループで共有されるコードブックを採用し、 を省略する。 の場合、GSQはLFQ Yu et al. (2024b) に縮小され、球面空間が著しく崩壊するため、トレーニング中に追加のエントロピー損失が必要となる Yu et al. (2024b); Zhao et al. (2024)。さらなる議論は付録 C で提供される。
4 Experiments
4.1 Optimized Training for GSQ-VAE
我々はまず、VAEベースのトークナイザーに対する提案したGSQの改良の有効性を調査する。これには、トレーニング構成、補助損失、モデルアーキテクチャ、およびハイパーパラメータ設定の影響が含まれる。すべてのモードでを設定し、解像度のImageNet Deng et al. (2009)でトレーニングを行った。ダウンサンプリング係数は、語彙サイズは、潜在次元はとし、バッチサイズ256、学習率で100kステップ(20エポック)トレーニングした。具体的なハイパーパラメータは付録Dに記載されている。すべてのトークナイザーは、減衰率0.999の指数移動平均を採用した。我々は、Esser et al. (2021)で提案されたLPIPS知覚損失 Zhang et al. (2018)を重み1.0でトレーニングに使用した。
Codebook Init | Norm | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL |
---|---|---|---|---|---|---|---|---|
11.37 | 84 | 0.12 | 22.3 | 0.64 | 3.38% | 237 | ||
5.343 | 113 | 0.10 | 23.7 | 0.71 | 100% | 8077 | ||
5.343 | 113 | 0.12 | 23.9 | 0.72 | 100% | 7408 | ||
8.312 | 94 | 0.12 | 22.1 | 0.66 | 33.9% | 566 | ||
5.375 | 113 | 0.11 | 23.59 | 0.71 | 100% | 8062 |
4.1.1 Effectiveness of Spherical Quantization
ベースラインとコードブック初期化。 表 1は、我々の球面一様分布コードブック初期化が、トレーニング中のコードブック使用率を約100%まで大幅に改善したことを示している。Yu et al. (2022); Zhao et al. (2024)の先行研究で言及された正規化の使用は、コードブック使用率の安定化(特に大規模なコードブックにおいて)とすべてのコードが通常等しくなることを保証するために重要である。図 7に示すように、我々のアプローチはトレーニング全体を通じて約100%のコードブック利用率を維持し、これによりrFIDを11.37から5.375に削減することができた。また、を用いることで、コードブック使用の知覚損失は語彙サイズに近くなる。
Quantizer Comparisons.
Codebook auxiliary loss.
我々は、エントロピー損失 Yu et al. (2024b); Luo et al. (2024)やTCR損失 Zhang et al. (2023)などのコードブック補助損失の有効性を調査した。表 2は、これらの損失がトークナイザーのパフォーマンスに悪影響を与え、コードブックの使用を妨げることを示している。エントロピー損失は最小の重み(0.01)でわずかな改善をもたらすのみであった。これらの損失の限られた有用性とトレーニング中の大規模な語彙サイズに対する計算コストを考慮し、我々はそれらを使用しないことを選択した。また、後の結果は、我々の方法がこれらの損失なしで512kまでの語彙サイズに対して100%のコードブック使用率を維持できることを示している。
Entropy Loss | TCR Loss | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL |
---|---|---|---|---|---|---|---|---|
0.01 | 5.281 | 114 | 0.12 | 23.9 | 0.72 | 99.8% | 7397 | |
0.1 | 5.687 | 112 | 0.12 | 23.7 | 0.71 | 73.5% | 5399 | |
0.5 | 7.906 | 97 | 0.11 | 22.8 | 0.67 | 8.83% | 620 | |
0.01 | 9.937 | 82 | 0.15 | 22.5 | 0.65 | 81.1% | 830 | |
✗ | ✗ | 5.375 | 113 | 0.11 | 23.59 | 0.71 | 100% | 8062 |
4.1.2 Ablation of Network Backbone
我々は、Adaptive Group Normalization(AdaLNとしても知られる) Huang & Belongie (2017)とDepth2Scale Yu et al. (2024b)の効果を含む、ベースラインアーキテクチャのバリエーションを探索した。表 3に詳述されているように、驚くべきことに、これらのモジュールは再構成の知覚品質を低下させ、rFIDを増加させたが、ピクセル単位の誤差は減少させた。 我々はAdaptive Group Normalizationをデフォルトとして使用し、セクション 4.2.4でGANのトレーニングにおけるDepth2Scaleをさらに調査した。
AGN | Depth2Scale | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL |
---|---|---|---|---|---|---|---|---|
✗ | ✗ | 5.375 | 113 | 0.11 | 23.59 | 0.71 | 100% | 8062 |
✓ | 5.406 | 113 | 0.10 | 23.85 | 0.71 | 100% | 7457 | |
✓ | 5.562 | 113 | 0.11 | 23.93 | 0.72 | 100% | 7410 | |
✓ | ✓ | 5.531 | 112 | 0.11 | 23.94 | 0.72 | 100% | 7452 |
Type | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL | ||
LPIPS | 0.1 | 1.0 | 7.062 | 98 | 0.12 | 25.26 | 0.75 | 100% | 7013 |
0.1 | 5.0 | 12.18 | 73 | 0.14 | 25.68 | 0.75 | 87% | 5673 | |
1.0 | 1.0 | 5.406 | 113 | 0.10 | 23.85 | 0.71 | 100% | 7457 | |
1.0 | 5.0 | 6.156 | 105 | 0,11 | 24.93 | 0.74 | 100% | 7192 | |
10 | 1.0 | 6.093 | 115 | 0.11 | 22.41 | 0.68 | 99% | 7417 | |
Dino | 0.1 | 1.0 | 7.312 | 90 | 0.15 | 24.91 | 0.72 | 100% | 6457 |
0.1 | 5.0 | 4.250 | 112 | 0.12 | 23.12 | 0.65 | 100% | 7004 | |
0.7 | 4.0 | 4.343 | 110 | 0.13 | 23.66 | 0.67 | 100% | 6887 | |
ResNet | 0.1 | 1.0 | 31.37 | 53 | 0.19 | 21.70 | 0.57 | 37% | 2657 |
0.1 | 5.0 | 9.625 | 84 | 0.15 | 23.91 | 0.68 | 73% | 5001 | |
0.7 | 4.0 | 204 | 1.60 | 0.56 | 20.16 | 0.41 | 77% | 5028 | |
VGG-16 | 0.1 | 1.0 | 4.468 | 112 | 0.14 | 22.64 | 0.63 | 100% | 6926 |
0.1 | 5.0 | 5.031 | 111 | 0.14 | 21.97 | 0.61 | 100% | 6986 | |
0.7 | 4.0 | 4.906 | 103 | 0.15 | 24.17 | 0.69 | 100% | 6759 |
4.1.3 Ablation of Perceptual Loss Selection
我々は、LPIPS Zhang et al. (2018)とlogitベースの知覚損失を含む様々な知覚損失の構成を探索した。これには、ResNet He et al. (2016)、VGG Simonyan & Zisserman (2015)、Dino Oquab et al. (2024)などの異なるバックボーンアーキテクチャを用いた。表 4に示すように、我々の調査結果は、ResNetベースのlogit損失が知覚損失として効果的でないことを示しており、これは以前の調査結果 Weber et al. (2024)と矛盾している。対照的に、DinoとVGGベースのlogit損失は低いrFIDスコアをもたらし、その可能性を示した。しかし、我々はLPIPSを選択した。これは、rFIDとピクセル単位の誤差のバランスを効果的に取ることができるためである。我々は、詳細なハイパーパラメータチューニングを通じてさらに最適化することで、より強力な知覚損失のパフォーマンスを向上させることができると予想している。
4.1.4 Hyper-parameters optimization for GSQ-VAE
Optimizers.
ハイパーパラメータの選択、特にAdamにおけるは、トレーニングダイナミクスに大きく影響する。我々は0から0.9までの範囲の値の組み合わせを評価し、結果を表 5に報告した。我々の実験は、より高いが常に安定したトレーニングを促進することで、より良い再構成性能をもたらすことを明らかにした。我々はまた、との重み減衰値を評価し、結果は高いを使用する場合、の重み減衰が全体的に最も良いパフォーマンスを示すことを示した。したがって、我々は最適なトレーニング安定性のために、0.05の重み減衰を伴うを使用する。
Weight Decay | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL | |
---|---|---|---|---|---|---|---|---|
(0, 0.99) | 5.562 | 113 | 0.11 | 23.9 | 0.72 | 100% | 7410 | |
5.812 | 107 | 0.11 | 23.9 | 0.71 | 100% | 7393 | ||
(0.5, 0.99) | 5.750 | 111 | 0.10 | 23.85 | 0.71 | 100% | 7492 | |
5.375 | 109 | 0.09 | 23.85 | 0.71 | 100% | 7421 | ||
(0.9, 0.95) | 5.406 | 113 | 0.10 | 23.85 | 0.71 | 100% | 7457 | |
5.562 | 113 | 0.10 | 23.85 | 0.71 | 100% | 7407 | ||
(0.9, 0.99) | 5.343 | 113 | 0.10 | 23.89 | 0.71 | 100% | 7462 | |
5.562 | 112 | 0.10 | 23.86 | 0.71 | 100% | 7404 | ||
(0.9, 0.999) | 5.406 | 112 | 0.10 | 23.87 | 0.71 | 100% | 7472 | |
5.468 | 111 | 0.10 | 23.88 | 0.71 | 100% | 7411 |
Warm-up | Decay | Final L.R. | rFID | IS | LPIPS | PSNR | SSIM | Usage | PPL |
---|---|---|---|---|---|---|---|---|---|
0 | ✗ | 1 | 5.343 | 113 | 0.10 | 23.89 | 0.71 | 100% | 7462 |
5k | ✗ | 1 | 5.406 | 114 | 0.10 | 23.78 | 0.72 | 100% | 7429 |
5k | 75k | 5.750 | 110 | 0.10 | 23.67 | 0.71 | 100% | 7344 | |
5k | 95k | 5.781 | 109 | 0.09 | 23.76 | 0.71 | 100% | 7355 | |
5k | 95k | 0 | 5.625 | 111 | 0.10 | 23.73 | 0.71 | 100% | 7343 |
5k | 10% at 75k | 5.468 | 112 | 0.10 | 23.83 | 0.71 | 100% | 7389 |
Learning rate scheduler.
最近の研究では、トークナイザーのトレーニングに様々な学習率スケジューラーが使用されている。我
次に、我々はディスクリミネータと敵対的損失を組み込み、ImageNet Deng et al. (2009) での解像度、最大80,000ステップでのGSQ-GANトレーニングの設定を検証した。VAEとディスクリミネータの学習率はである。詳細なハイパーパラメータは付録Eに記載されている。 我々は3種類のディスクリミネータを評価した:N層ディスクリミネータ(NLD)Isola et al. (2017)、StyleGANディスクリミネータ(SGD)Karras et al. (2019)、およびDinoディスクリミネータ(DD)Sauer et al. (2023)。また、3種類の敵対的損失タイプを比較した:バニラ非飽和(V)、ヒンジ(H)、および改良非飽和(N)であり、結果として6つの敵対的-ディスクリミネータ損失設定の組み合わせとなった。 不適切なGAN損失を選択すると、N層ディスクリミネータとDinoディスクリミネータのパフォーマンスに悪影響を及ぼした。表 7に示すように、Dinoディスクリミネータを使用して訓練されたすべてのGANモデルは、一貫してN層ディスクリミネータを使用したGANを上回るパフォーマンスを示した。N層ディスクリミネータに最適な損失はNV損失であり、rFID 9.562を達成し、DinoディスクリミネータにはNHが最適で、rFID 1.867に達した。
さらに、我々はDinoディスクリミネータのデータ拡張 Sauer et al. (2023) を検証した。表 8に示すように、色彩拡張、平行移動、およびカットアウトの組み合わせを使用することで、再構成性能が向上した。 ディスクリミネータの最適化とと敵対的損失の重み。
我々はN層ディスクリミネータとDinoディスクリミネータのオプティマイザのハイパーパラメータ()について検証を行った。表 9に示す結果は、より高い値()が両方のディスクリミネータタイプでより安定したトレーニングダイナミクスをもたらすことを示している。我々は残りの実験でこの設定を使用した。さらに、敵対的損失の重みを変更しても顕著な利点は見られなかったため、敵対的損失の重みを0.1に設定した。 我々はバッチサイズと学習率の設定を調査し、3つの異なるバッチサイズと学習率を比較した。表 10に示す結果は、より大きなバッチサイズと増加した学習率が安定性と収束速度を改善し、したがってより大きなバッチサイズでGANトレーニングを加速することを可能にしたことを示している。 我々はディスクリミネータトレーニングを安定化するためのいくつかの正則化技術を探索した:勾配ペナルティ Gulrajani et al. (2017)、LeCAM正則化 Yu et al. (2023)、およびオートエンコーダのウォームアップ、さらに適応的ディスクリミネータ損失重み Yu et al. (2022)、重み減衰、および勾配クリッピング。表 11に我々の発見をまとめている。 一定のを使用することが最も良い性能を示し、適応的重み付け Esser et al. (2021) からは利点が観察されなかった。N層ディスクリミネータに追加された勾配ペナルティは効果がなく、LeCAMはわずかに結果を改善した。オートエンコーダのウォームアップ(ディスクリミネータのトレーニングが20,000ステップ後に開始)は安定性やパフォーマンスを改善しなかった。2.0での勾配クリッピング(デフォルト)は1.0よりも効果的であり、の重み減衰はN層ディスクリミネータを改善したが、Dinoディスクリミネータをわずかに劣化させた。 正則化を用いたStyleGANディスクリミネータのトレーニングはの問題に対処できなかった。我々はStyleGANディスクリミネータと勾配ペナルティの組み合わせも試した。しかし、勾配ペナルティを用いたトレーニングはおよそ4倍遅くなったため、80,000ステップのトレーニング時間内にトレーニングを完了することができなかった(StyleGANディスクリミネータの詳細については付録Eを参照)。 本節では、潜在次元とコードブック語彙サイズの変化が再構成品質にどのように影響するかを調査する。本研究のすべてのモデルは、の解像度でバッチサイズ512、50,000ステップ(20エポック)で訓練された。詳細なハイパーパラメータは付録Fに記載されている。 我々は、ネットワーク容量が再構成の忠実度に与える影響を調査し、特に幅と深さに注目した。幅のスケーリングは畳み込み層のチャンネル数を増やすことで実装し、深さのスケーリングは追加の畳み込みブロックを加えることで実装したYu et al. (2024b)。図 3にまとめられた結果は、ネットワークの幅と深さが増加するにつれて再構成が一貫して改善されることを示している。Esser et al. (2021)で使用されているように、より広いネットワーク内に注意モジュールを統合することで、さらなる改善が得られた。 次に、我々は潜在次元とコードブック語彙サイズのスケーリングの影響を調査する。モデルは潜在次元、、、で訓練され、それぞれ8k、16k、64k、256k、512kの語彙サイズと組み合わされた。図 4と図 4の結果は、より大きな語彙サイズと低い潜在次元の組み合わせが、一貫してより優れた再構成性能をもたらすことを示している。特筆すべきは、潜在次元8と語彙サイズ512kのモデルが最先端の画像トークナイザーを凌駕し、わずか50,000訓練ステップ(20エポック)で顕著な結果を達成したことである。 これらの発見は、量子化器の表現能力を向上させる上で大規模なコードブック語彙の重要性を強調している。この傾向は理論的な期待と一致しており、図 4に示されているように、GSQ-GANの表現能力は基本的にによって制限されている。ここでは語彙サイズである。このパターンは構成全体で一貫しており、VQに関する先行研究(例えば、Yu et al. (2024b) Yu et al. (2022) Sun et al. (2024))と対照的である。なぜなら、それらはVQ-GANトレーニングの最適化された構成を採用しておらず、モデルトレーニングの劣化がスケーリング挙動の観察にバイアスをかけているためである。 我々の実験は、低次元の潜在空間がより良い再構成忠実度をもたらすことを明らかにした。付録Cで詳述されているように、低次元の潜在空間はコードブックの更新に使用される正確なユークリッド距離の計算に有利である。この洞察は、LFQ Yu et al. (2024b)、FSQ Mentzer et al. (2024)、そして我々が提案するGSQなどの分解されたベクトル量子化アプローチの成功を支持している。 興味深いことに、直感的には巨大な潜在空間のために、より大きな潜在次元がより良いパフォーマンスをもたらすと予想されるかもしれない。我々の結果は、高次元空間がしばしば十分に活用されていないことを示唆している。これは重要である。なぜなら、より高い空間ダウンサンプリング比での効果的な圧縮には、より大きな潜在次元が必要だからである。しかし、通常のVQのようなモデルは、高い空間圧縮の課題に対して潜在次元を効果的にスケールすることができない。図 5に示されているように、F8からF16に移行する際に潜在次元を増やすことで再構成品質が向上する。しかし、ある点(ここではF16-D16)を超えると、モデルは次元の呪いとして知られる制限に直面する。対照的に、GSQで次元分解を使用すると、でさえ、再構成性能が魅力的に向上する。 次元のスケーリングの困難さに関する制限に対処するために、我々はGSQを使用して大きな潜在次元を低次元に分解し、再構成忠実度をより効果的に最大化する。表 13に示されているように、潜在ベクトルを複数のグループに分解することで、GSQは全体的な潜在次元や語彙サイズを変更することなく、再構成性能を大幅に向上させる。この結果は、GSQが高次元潜在空間の表現力を活用する能力を確認し、モデルの忠実度に大きな利益をもたらすことを示している。 特筆すべきは、モデルがとでほぼロスレスの再構成を達成し、理論的な最大性能に近づいていることである。圧縮率は非常に低く実用的な価値は乏しいが、GSQの顕著なスケーラビリティと表現力を強調している。
4.2 Optimized Training for GSQ-GAN
Discriminator
Adv.
Discr.
rFID
IS
PSNR
SSIM
Usage
PPL
loss
loss
✗
✗
✗
5.343
113
23.89
0.71
100%
7462
NLD
Isola et al. (2017)
Hinge
Vanilla
45.2
25
20.6
0.58
96.4%
6976
Hinge
Hinge
24.0
49
21.4
0.62
98.5%
7424
Hinge
Non-Sat.
68.5
14
19.3
0.51
58.2%
4069
Non-Sat.
Vanilla
9.562
86
22.08
0.66
100%
7558
Non-Sat.
Hinge
11.3
80
22.0
0.66
100%
7516
Non-Sat.
Non-Sat.
23.7
50
21
0.62
99.0%
7451
SGD
(1k)
Karras et al. (2019)
Hinge
Hinge
18.1
63
21.65
0.64
100%
6104
Non-Sat.
Vanilla
19.1
62
21.57
0.64
100%
6061
Non-Sat.
Hinge
27.1
46
21.42
64.96
100%
5514
DD
Sauer et al. (2023)
Hinge
Hinge
1.976
116
21.78
0.64
100%
7546
Non-Sat.
Vanilla
1.906
117
22.01
0.65
100%
7533
Non-Sat.
Hinge
1.867
117
22.12
0.66
100%
7525
OpenMagViT2 w/ 1.75M steps
1.180
Luo et al. (2024)
4.2.1 Ablations of Discriminator and Combinations of Adversarial Loss
Discr. Data Aug.
rFID-1282
rFID-2562
✗
1.953
0.824
Color+Trans
2.000
0.783
Cutout+Color+Trans
1.867
0.824
Resize+Color+Trans
2.000
0.832
Discr.
Loss
rFID
IS
PSNR
SSIM
NLD
NH
(0, 0.99)
0.1
6.687
96.5
22.35
0.67
NLD
NH
(0.5, 0.9)
0.1
11.31
80.0
22.01
0.66
NLD
NH
(0.5, 0.9)
0.5
106
8.68
15.40
0.29
NLD
NH
(0.9, 0.95)
0.1
3.578
114
22.74
0.69
NLD
NH
(0.9, 0.99)
0.1
3.515
114
22.85
0.69
NLD
NH
(0.9, 0.99)
0.5
3.718
114
22.83
0.69
NLD
NV
(0.5, 0.9)
0.1
9.562
86
22.08
0.66
NLD
NV
(0.9, 0.99)
0.1
3.390
102
22.88
0.69
NLD
NV
(0.9, 0.99)
0.5
3.515
114
22.86
0.69
DD
NH
(0.5, 0.9)
0.1
1.867
117
22.12
0.66
DD
NH
(0.9, 0.99)
0.1
1.859
118
22.12
0.66
DD
NH
(0.9, 0.99)
0.5
2.453
106
20.66
0.59
DD
NV
(0.5, 0.9)
0.1
1.906
117
22.01
0.65
DD
NV
(0.9, 0.99)
0.1
1.820
117
22.02
0.65
DD
NV
(0.9, 0.99)
0.5
2.671
102
20.28
0.57
4.2.2 Hyper-parameters Optimization for GSQ-GAN
Batch size
Learning rate
rFID
IS
LPIPS
PSNR
SSIM
Usage
PPL
256
1
1.859
118
0.08
22.12
0.66
100%
7528
256
2
1.796
119
0.07
22.28
0.66
100%
7525
256
3
1.890
118
0.07
22.36
0.67
100%
7544
512
1
1.671
120
0.08
22.08
0.66
100%
7494
512
2
1.578
122
0.07
22.25
0.66
100%
7538
768
2
1.593
121
0.07
22.32
0.67
100%
7513
768
3
1.648
122
0.07
22.31
0.67
100%
7520
Learning Rates and Batch Size.
4.2.3 GAN Regularization Ablations
Discr.
WD
AW
rFID
IS
LPIPS
PSNR
SSIM
PPL
NLD-NV
3.390
114
0.06
22.8
0.69
7594
NLD-NV + GC 1.0
3.453
114
0.06
22.8
0.69
7483
NLD-NV
3.296
115
0.06
22.86
0.69
7494
NLD-NV
✓
4.437
112
0.07
23.34
0.70
7476
NLD-NV + GP
5.750
110
0.09
23.78
0.71
7447
NLD-NV + LeCAM
3.546
113
0.07
22.89
0.69
7455
DD-NH
1.859
118
0.08
22.12
0.66
7528
DD-NH
1.914
118
0.08
22.12
0.66
7514
DD-NH
✓
2.687
117
0.07
23.40
0.70
7464
DD-NH + AE-warmup
2.000
116
0.08
22.22
0.66
7484
DD-NH + LeCAM
5.250
111
0.08
23.79
0.71
7437
SGD-NH
✓
3.593
110
0.07
23.61
0.70
7470
Data Aug
D2S
Attention
rFID
128
rFID
256
1.609
0.675
✓
1.578
0.652
✓
1.570
0.660
✓
✓
1.531
0.605
4.3 Scaling Behaviors of GSQ-GAN
4.3.1 Network Capacity.
4.3.2 Scaling of Latent Space and Vocabulary.
4.3.3 Latent Space and Downsample Factor, and Better Scaling with GSQ
Models
rFID
IS
LPIPS
PSNR
SSIM
Usage
PPL
Luo et al. (2024)
LFQ F16-D18
1.17
GSQ F8-D64
0.63
205
0.08
22.95
0.67
99.87%
8,055
0.32
<td class="ltx_td lt
</section>