JaLMS
最新の AI 研究を日本語で解読

Low-Bit Quantization Favors Undertrained LLMs:
Scaling Laws for Quantized LLMs with 100T Training Tokens

Xu Ouyang1,2     Tao Ge2     Thomas Hartvigsen1    Zhisong Zhang2    Haitao Mi2    Dong Yu2
1University of Virginia                2Tencent AI Lab Seattle     
[email protected]        [email protected]
Work done while interning at Tencent AI Lab Seattle.Corresponding author
Abstract

我々は、低ビット量子化が十分に訓練されていない大規模言語モデル(LLM)に有利であることを明らかにした。これは、モデルのサイズが大きいほど、または訓練トークン数が少ないほど、低ビット量子化を適用した際の量子化誘導劣化(QiD)が少ないのに対し、小規模なモデルで大量の訓練トークンを使用した場合は著しいQiDを被ることを観察したことによる。この傾向をより深く理解するため、我々は制御された環境下で、様々なサイズと訓練レベル(十分に訓練されていないものと完全に訓練されたもの)の1500以上の量子化されたLLMチェックポイントを研究し、QiDと訓練トークン数、モデルサイズ、ビット幅などの要因との関係を理解するためのスケーリング則を導出した。

導出されたスケーリング則を用いて、我々はQiDを使用してLLMの訓練レベルを測定し、様々なサイズのLLMを完全に訓練するために必要な訓練トークン数を決定できるという新しい視点を提案する。さらに、我々はスケーリング則を用いて、100 trillionトークンで訓練された異なるサイズのLLMの量子化性能を予測する。我々の予測によると、100兆トークン以上で訓練されると予想される将来のモデルの低ビット量子化性能は、望ましくない可能性がある。これは、将来の低ビット量子化に潜在的な課題を提起し、低ビット量子化研究を評価する際にモデルの訓練レベルを認識する必要性を強調している。本問題に関する将来の研究を促進するため、本稿で使用した1500以上の量子化されたチェックポイントをhttps://huggingface.co/Xu-Ouyangで公開する。

1 Introduction

量子化 (Jacob et al., 2018; Krishnamoorthi, 2018; Banner et al., 2019; Frantar et al., 2022; Shen et al., 2024; Lin et al., 2024; Zhang et al., 2024) は、モデルのディスクサイズとメモリフットプリントを削減し、低精度の重みと活性化を通じて推論効率を向上させることにより、大規模言語モデル(LLM)を効率的に展開するための最も一般的な技術の一つである。過去数年間でモデルサイズが継続的に増大するにつれ、研究者たちは従来の8ビット量子化 (Zafrir et al., 2019; Dettmers et al., 2022; Zhong et al., 2024) を超えて、さらに低いビット幅 (Bai et al., 2020; Zhang et al., 2020; Wang et al., 2023; Liu et al., 2023; Egiazarian et al., 2024; Liu et al., 2024; Huang et al., 2024) の探求を始め、低ビット量子化に関する研究への関心が急増している。

Refer to caption
図2: 異なるサイズと学習レベルにおける低ビット量子化後のLLMの性能。小規模なモデルや、より多くのトークンで学習されたモデルが、量子化による劣化をより大きく受けることは明らかである。

低ビット量子化は、量子化による劣化(QiD)がほとんどない一部のLLMチェックポイントでは良好に機能するが、我々はこれらのチェックポイントが通常、より大きなモデルサイズか、より少ない学習トークン数のいずれかであることを観察している。対照的に、小規模なモデルやはるかに多くのトークンで学習されたモデルは、低ビット量子化を適用した際に著しいQiDを被る傾向がある。図2(右)に示すように、3ビット量子化は120億パラメータのLLMに対して1011superscript101110^{11}10 start_POSTSUPERSCRIPT 11 end_POSTSUPERSCRIPT学習トークンまでは無視できるQiDをもたらすが、この点を超えるとQiDが顕著になり始める。小規模なモデル(例えば、1億6000万および10億パラメータ)では、QiDの劣化がはるかに早く発生し、より深刻である。図2(左)に示すようにさらに極端な2ビット量子化では、傾向は類似しているが、QiDはより早く、より顕著に悪化する。この観察は、低ビット量子化が学習不足のLLMを好む傾向があり、十分に学習されたLLMとの互換性が低いことを示唆している。

この傾向についてより深い洞察を得るために、我々は様々なサイズ(160Mから12Bまで)と異なる訓練レベル11本研究における訓練レベルとは、LLMが訓練された程度(例えば、訓練不足、完全に訓練された、または過剰訓練された)を指し、訓練トークン数とモデルサイズの両方に関連している。(1Bから206Bの訓練トークンで訓練)の1500以上の量子化されたLLMチェックポイントを研究し、制御された環境下でそれらに対する低ビット量子化の影響を分析する。我々は、訓練トークン数、モデルサイズ、ビット幅に関してQiDをモデル化するスケーリング則を導出する。導出されたスケーリング則に基づき、我々はQiDを使用してLLMの訓練レベルを測定し、そのサイズに応じてLLMを完全に訓練するために必要な訓練トークン数を決定できるという新しい視点を提案する。さらに、我々はスケーリング則を使用して、100兆の訓練トークンで低ビット量子化を適用した場合の異なるサイズのLLMの性能を予測する。我々の予測によると、100兆トークン以上で訓練されると予想される将来のモデルの低ビット量子化は望ましくない可能性があり、これは将来の低ビット量子化における潜在的な課題を示唆し、将来の低ビット量子化研究の評価においてモデルの訓練レベルを考慮すべきであることを示している。

本稿の貢献は以下の3点である:

  • 我々は、低ビット量子化が十分に訓練されていないLLMに有利である一方で、完全に訓練されたLLMに適用した場合、量子化誘導劣化(QiD)による著しい性能低下を引き起こすことを明らかにした。この洞察は、これまでの低ビット量子化研究では大きく見過ごされてきた。提案された低ビット量子化アプローチを評価する際に、量子化されたLLMの訓練レベルを考慮した研究はごくわずかであった。

  • 我々は、訓練トークン数、モデルサイズ、ビット幅に関するQiDをモデル化するためのスケーリング則を導出した。これらのスケーリング則を用いて、LLMが完全に訓練されているかどうかを測定する信号としてQiDを使用し、異なるサイズのLLMが完全に訓練された状態に達するために必要な訓練トークン数を推定することを提案する。さらに、このスケーリング則を用いて、100兆トークンで訓練された異なるサイズのLLMに対する低ビット量子化の性能を予測する。我々の予測は、低ビット量子化の将来の応用に対する潜在的な課題を示している。

  • 我々は、この研究で使用された1500以上の量子化されたチェックポイントをすべて公開し、この問題に関する将来の研究を促進する。

2 Preliminary: Scaling Laws for Large Language Models

大規模言語モデルのスケーリング則(Kaplan et al., 2020; Hoffmann et al., 2022)は、これらのモデルの性能がパラメータ数や学習トークン数などの規模の増加に伴いどのように向上するかを理解する上で極めて重要である:

Number of Parameters

LLMの性能は通常、パラメータ数の増加に伴いべき乗則に従って向上し、より大規模なモデルが同じデータセットに対してより適合し、一般化できるようになる:

L(N)=aNα+ϵ𝐿𝑁𝑎superscript𝑁𝛼italic-ϵL(N)=\frac{a}{N^{\alpha}}+\epsilonitalic_L ( italic_N ) = divide start_ARG italic_a end_ARG start_ARG italic_N start_POSTSUPERSCRIPT italic_α end_POSTSUPERSCRIPT end_ARG + italic_ϵ (1)

ここで、L(N)𝐿𝑁L(N)italic_L ( italic_N )N𝑁Nitalic_N(非埋め込みパラメータ数)に依存する損失関数22本稿では主に言語モデリングのクロスエントロピー損失について議論する。であり、a𝑎aitalic_aは定数(係数)、α𝛼\alphaitalic_αはスケーリング指数、ϵitalic-ϵ\epsilonitalic_ϵは誤差項を表す。この関係は、より大規模なモデルが一般的に言語の複雑性をより捉えることができ、より良い一般化と低い損失につながることを示している。

Training Tokens

より多くの学習トークンもまた、べき乗則に従って性能を向上させ、モデルがより効果的に言語の複雑性を捉えることを可能にする:

L(D)=bDβ+ϵ𝐿𝐷𝑏superscript𝐷𝛽italic-ϵL(D)=\frac{b}{D^{\beta}}+\epsilonitalic_L ( italic_D ) = divide start_ARG italic_b end_ARG start_ARG italic_D start_POSTSUPERSCRIPT italic_β end_POSTSUPERSCRIPT end_ARG + italic_ϵ (2)

ここで、D𝐷Ditalic_Dは学習トークン数を表し、b𝑏bitalic_bは定数(係数)、β𝛽\betaitalic_βは学習トークンのスケーリング指数である。より多くの学習トークンは、LLMの学習と一般化能力を向上させ、より低い損失でより良い言語モデリング性能を達成することを可能にする。

パラメータ数N𝑁Nitalic_Nと学習データ量D𝐷Ditalic_Dの両方を同時にスケールする場合、スケーリング則は両者の複合的な効果を考慮した関数として表現できる:

L(N,D)=[(NcN)αNαD+DcD]αD𝐿𝑁𝐷superscriptdelimited-[]superscriptsubscript𝑁𝑐𝑁subscript𝛼𝑁subscript𝛼𝐷subscript𝐷𝑐𝐷subscript𝛼𝐷L(N,D)=[(\frac{N_{c}}{N})^{\frac{\alpha_{N}}{\alpha_{D}}}+\frac{D_{c}}{D}]^{% \alpha_{D}}italic_L ( italic_N , italic_D ) = [ ( divide start_ARG italic_N start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT end_ARG start_ARG italic_N end_ARG ) start_POSTSUPERSCRIPT divide start_ARG italic_α start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT end_ARG start_ARG italic_α start_POSTSUBSCRIPT italic_D end_POSTSUBSCRIPT end_ARG end_POSTSUPERSCRIPT + divide start_ARG italic_D start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT end_ARG start_ARG italic_D end_ARG ] start_POSTSUPERSCRIPT italic_α start_POSTSUBSCRIPT italic_D end_POSTSUBSCRIPT end_POSTSUPERSCRIPT (3)

このスケーリング則により、我々は実際の学習を行う前に、前例のないモデルサイズと学習データ規模における言語モデルの性能を効果的に推定することができる。

3 Scaling Laws for Low-bit Quantization

本節では、低ビット量子化のスケーリング則を提案する。第2節で議論したスケーリング則とは異なり、ここでの焦点は、様々な訓練規模のLLMに低ビット量子化を適用した際に、量子化誘導劣化(QiD)がどのように変化するかを理解することである。形式的には、QiDは以下のように定義される:

ΔqLoss=LossqLoss16-bitsubscriptΔ𝑞𝐿𝑜𝑠𝑠𝐿𝑜𝑠subscript𝑠𝑞𝐿𝑜𝑠subscript𝑠16-bit\Delta_{q}Loss=Loss_{q}-Loss_{\textrm{16-bit}}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s = italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT - italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPT (4)

ここで、Lossq𝐿𝑜𝑠subscript𝑠𝑞Loss_{q}italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPTは量子化されたLLMのクロスエントロピー損失であり、Loss16-bit𝐿𝑜𝑠subscript𝑠16-bitLoss_{\textrm{16-bit}}italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPTは量子化前のfp16またはbf16の重みを持つ対応するモデルのクロスエントロピー損失である。ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sはQiDを表し、低ビット量子化の適用前後の損失の差である。

言語モデリングの従来のスケーリング則に触発され、我々はモデルサイズと訓練トークン数がQiDに与える影響を調査する。さらに、ビット幅(すなわち、量子化された重み値の精度)も考慮する。

3.1 Experimental Setting

我々は実験のために、Pythiaスイート(Biderman et al., 2023)からオープンソースのLLMを選択した。Pythiaは様々なサイズのLLMを含むだけでなく、その訓練プロセス全体(ゼロから3000億トークンまで)のすべてのチェックポイントへのアクセスを提供しており、これにより我々は制御された設定で実験を行い、低ビット量子化のスケーリング則を導出することができる。

我々は6つの異なるサイズのPythia LLMを選択した:160M、410M、1B、2.8B、6.9B、12B。各サイズについて、98kステップまでの20のチェックポイントをサンプリングした(付録A.1参照)3398kステップは約2060億トークンに相当し、これはPythiaの訓練データの1エポックに相当する。Pythiaは143kステップまで訓練されたが、98kステップ以降のチェックポイントは、おそらく既に訓練されたデータの2回目のエポックを表すため、重複データの影響を避けるためにスキップした。

量子化については、最も一般的なLLM量子化技術の1つであるGPTQ (Frantar et al., 2022) を用いて、Pythiaのチェックポイントを2ビット、3ビット、4ビットレベルに量子化した。

我々はRefinedWebデータセット(Penedo et al., 2023)からランダムにサンプリングした1,000のテキストでQiDを評価した。

3.2 Training Tokens

従来の言語モデリングのスケーリング則では学習トークン数D𝐷Ditalic_Dが分母に現れるのに対し、我々は学習トークンとQiDの関係について以下のように提案する:

ΔqLoss(D)bDβsubscriptΔ𝑞𝐿𝑜𝑠𝑠𝐷𝑏superscript𝐷𝛽\Delta_{q}Loss(D)\approx b\cdot D^{\beta}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_D ) ≈ italic_b ⋅ italic_D start_POSTSUPERSCRIPT italic_β end_POSTSUPERSCRIPT (5)

これは、図2での我々の観察によると、学習トークンが多いほどQiDが顕著になるためである。

Refer to caption
図3: 式(5)の形で学習トークン数に関するQiDのフィットされたスケーリング則。ここでβ𝛽\betaitalic_βは0.5316にフィットされている。

我々は上記の関数形を用いて、3で量子化されたPythiaチェックポイントで観察されたQiDをフィットし、β=0.5316𝛽0.5316\beta=0.5316italic_β = 0.5316を得た。これは学習トークンの変化に対するQiDの傾向によく適合している。

3.3 Model Size

2で言及したように、モデルのサイズが大きいほどQiDは小さくなる傾向がある。したがって、我々はモデルサイズ(つまり、埋め込み以外のパラメータ数)とQiDの関係を以下のように提案する:

ΔqLoss(N)aNαsubscriptΔ𝑞𝐿𝑜𝑠𝑠𝑁𝑎superscript𝑁𝛼\Delta_{q}Loss(N)\approx\frac{a}{N^{\alpha}}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_N ) ≈ divide start_ARG italic_a end_ARG start_ARG italic_N start_POSTSUPERSCRIPT italic_α end_POSTSUPERSCRIPT end_ARG (6)

我々は上記の関数形を用いて、図4の量子化されたPythiaチェックポイントのQiDをフィットし、α=0.2276𝛼0.2276\alpha=0.2276italic_α = 0.2276を得た。

Refer to caption
図4: 式(6)の形でモデルサイズ(つまり、埋め込み以外のパラメータ数)に関するQiDのフィットされたスケーリング則。ここでα𝛼\alphaitalic_αは0.2276にフィットされている。
Refer to caption
図5: 式(7)の形でビット幅に関するQiDのフィットされたスケーリング則。ここでγ𝛾\gammaitalic_γは5.4812にフィットされている。

3.4 Bit Width

ビット幅は従来のスケーリング則には存在しない要因である。ビット幅の役割がパラメータ数の役割と類似していることを考慮すると(両者ともモデルの表現力を向上させることを目的としている)、我々は第3.3節と同様の関数形を提案し、式(7)でビット幅をモデル化し、図5のPythiaのデータポイントに当てはめる:

ΔqLoss(P)cPγsubscriptΔ𝑞𝐿𝑜𝑠𝑠𝑃𝑐superscript𝑃𝛾\Delta_{q}Loss(P)\approx\frac{c}{P^{\gamma}}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_P ) ≈ divide start_ARG italic_c end_ARG start_ARG italic_P start_POSTSUPERSCRIPT italic_γ end_POSTSUPERSCRIPT end_ARG (7)

3.5 Unified Scaling Law

3.2節(訓練トークン数)、第3.3節(モデルサイズ)、および第3.4節(ビット幅)で導出した基本的なスケーリング則を用いて、我々は3つの要因を全て考慮してQiDをモデル化する方法を研究する。Kaplan et al. (2020)に触発され、我々は要因を統一するために以下の4つの原則を考慮する:

  • DとPを固定し、N𝑁N\to\inftyitalic_N → ∞とすると、ΔqLoss0subscriptΔ𝑞𝐿𝑜𝑠𝑠0\Delta_{q}Loss\to 0roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s → 0が予想される。

  • NとPを固定し、D0𝐷0D\to 0italic_D → 0とすると、ΔqLoss0subscriptΔ𝑞𝐿𝑜𝑠𝑠0\Delta_{q}Loss\to 0roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s → 0が予想される。

  • NとDを固定し、P16𝑃16P\geq 16italic_P ≥ 16とすると、ΔqLoss0subscriptΔ𝑞𝐿𝑜𝑠𝑠0\Delta_{q}Loss\to 0roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s → 0が予想される。

  • NとDを固定し、P0𝑃0P\to 0italic_P → 0とすると、ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sは非常に大きくなるはずである。

我々は低ビット量子化のための統一スケーリング則を以下のように提案する:

ΔqLoss(N,D,P)=kDβNαPγsubscriptΔ𝑞𝐿𝑜𝑠𝑠𝑁𝐷𝑃𝑘superscript𝐷𝛽superscript𝑁𝛼superscript𝑃𝛾\Delta_{q}Loss(N,D,P)=k\cdot\frac{D^{\beta}}{N^{\alpha}P^{\gamma}}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_N , italic_D , italic_P ) = italic_k ⋅ divide start_ARG italic_D start_POSTSUPERSCRIPT italic_β end_POSTSUPERSCRIPT end_ARG start_ARG italic_N start_POSTSUPERSCRIPT italic_α end_POSTSUPERSCRIPT italic_P start_POSTSUPERSCRIPT italic_γ end_POSTSUPERSCRIPT end_ARG (8)

ここで、k𝑘kitalic_kは結合係数であり、係数と指数(α𝛼\alphaitalic_αβ𝛽\betaitalic_βγ𝛾\gammaitalic_γ)はいずれも正である。図6は、この関数形を用いてフィッティングした曲線を示している。共同でフィッティングした指数α𝛼\alphaitalic_αβ𝛽\betaitalic_β、およびγ𝛾\gammaitalic_γは、これらの変数を独立にフィッティングして得られた値と密接に一致しており、結合関数形ΔqLoss(N,D,P)subscriptΔ𝑞𝐿𝑜𝑠𝑠𝑁𝐷𝑃\Delta_{q}Loss(N,D,P)roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_N , italic_D , italic_P )の有効性をさらに裏付けている。

Refer to caption
図6: 式(8)に基づいて、Pythiaスイートのグループ量子化(GPTQ)された大規模言語モデル(LLM)を用いてフィッティングした統一スケーリング則:ΔqLoss(N,D,P)=0.017D0.5251/(N0.2261P5.4967)subscriptΔ𝑞𝐿𝑜𝑠𝑠𝑁𝐷𝑃0.017superscript𝐷0.5251superscript𝑁0.2261superscript𝑃5.4967\Delta_{q}Loss(N,D,P)=0.017D^{0.5251}/(N^{0.2261}\cdot P^{5.4967})roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s ( italic_N , italic_D , italic_P ) = 0.017 italic_D start_POSTSUPERSCRIPT 0.5251 end_POSTSUPERSCRIPT / ( italic_N start_POSTSUPERSCRIPT 0.2261 end_POSTSUPERSCRIPT ⋅ italic_P start_POSTSUPERSCRIPT 5.4967 end_POSTSUPERSCRIPT )

ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sの統一スケーリング則と式(4)におけるΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sの定義を考えると、量子化されたLLMの性能をLossq=Loss16-bit+ΔqLoss𝐿𝑜𝑠subscript𝑠𝑞𝐿𝑜𝑠subscript𝑠16-bitsubscriptΔ𝑞𝐿𝑜𝑠𝑠Loss_{q}=Loss_{\textrm{16-bit}}+\Delta_{q}Lossitalic_L italic_o italic_s italic_s start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT = italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPT + roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sとして容易に予測できる。これは図7に示されており、観測されたデータ点とよく一致している。

Refer to caption
図7: 量子化されたLLMの性能をLossq=Loss16-bit+ΔqLoss𝐿𝑜𝑠subscript𝑠𝑞𝐿𝑜𝑠subscript𝑠16-bitsubscriptΔ𝑞𝐿𝑜𝑠𝑠Loss_{q}=Loss_{\textrm{16-bit}}+\Delta_{q}Lossitalic_L italic_o italic_s italic_s start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT = italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPT + roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sとして予測できる。ここで、Loss16-bit𝐿𝑜𝑠subscript𝑠16-bitLoss_{\textrm{16-bit}}italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPTは、Pythiaスイートのモデルを用いて式(3)の関数形に基づいてフィッティングされた従来のLLMのスケーリング則Loss16-bit=[(4.74e19/N)(0.045/0.399)+7.63e10/D]0.399𝐿𝑜𝑠subscript𝑠16-bitsuperscriptdelimited-[]superscript4.74superscript𝑒19𝑁0.0450.3997.63superscript𝑒10𝐷0.399Loss_{\textrm{16-bit}}=[(4.74e^{19}/N)^{(0.045/0.399)}+7.63e^{10}/D]^{0.399}italic_L italic_o italic_s italic_s start_POSTSUBSCRIPT 16-bit end_POSTSUBSCRIPT = [ ( 4.74 italic_e start_POSTSUPERSCRIPT 19 end_POSTSUPERSCRIPT / italic_N ) start_POSTSUPERSCRIPT ( 0.045 / 0.399 ) end_POSTSUPERSCRIPT + 7.63 italic_e start_POSTSUPERSCRIPT 10 end_POSTSUPERSCRIPT / italic_D ] start_POSTSUPERSCRIPT 0.399 end_POSTSUPERSCRIPTによって予測できる。

3.6 Validation with Ablation Studies

我々は、3.5節で導出したスケーリング則を、異なるテストデータ、量子化手法、および基盤モデルを用いて検証する。

3.6.1 Test Data

8において、RefinedWebとWikitext-2 (Merity et al., 2016)をテストデータとして使用した結果を比較しており、これら2つのテストデータセットにおけるQiDの結果がほぼ同一であることを示している。このことは、QiDの傾向がテストデータにほとんど依存しないことを示唆している。

Refer to caption
図8: 12B Pythiaモデルを用いてRefinedWebとWikitext-2で評価したQiDの結果。

3.6.2 Quantization Methods

我々は、GPTQに加えて、他の2つの一般的な量子化手法であるAWQ (Lin et al., 2024)とbitandbytes444https://github.com/bitsandbytes-foundation/bitsandbytesを用いてPythiaのチェックポイントを量子化した。図9にQiDの結果と適合したスケーリング則を示す。異なる量子化手法におけるQiDの傾向がほぼ同一であることが観察されるが、適合したスケーリング則にはわずかな差異が見られる。

Refer to caption
図9: 異なる量子化手法におけるQiDの結果と適合したスケーリング則。なお、ここでのGPTQ関数は図6のものとわずかに異なっている。これは、図6の関数がすべての量子化されたPythiaチェックポイントを用いて適合されているのに対し、ここでは4ビットに量子化されたPythiaチェックポイントのみを用いて適合されているためである。

3.6.3 Foundation Models

Refer to caption
図10: 左: すべて300Bトークンで訓練されたSpectraスイートのLLMチェックポイントに適合した低ビット量子化のスケーリング則; 右: 実際のΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sLlamaとQwenに適合したスケーリング則に基づいて計算された予測ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s

10は、我々のスケーリング則関数形式である式(8)のSpectraスイート(Kaushal et al., 2024)および一般に公開されている人気のLlama (Touvron et al., 2023; Dubey et al., 2024)とQwen (Yang et al., 2024)モデルへの適合結果を示している。これは、スケーリング則がPythiaだけでなく、広く適用可能である可能性が高いことを確認するものである。

4 Discussion: Low-bit Quantization Favors Undertrained LLMs

4.1 Intuition

3節で導出したスケーリング則に基づき、我々は低ビット量子化が、より少ない学習トークン数またはより大きなモデルサイズを持つモデルを好む傾向があることを確認した。これらは本質的に学習不足のLLMである。

Refer to caption
図11: 十分に学習されたLLMは、学習不足のLLMと比較して、はるかに大きなQiD(すなわち、ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s)を示す。

11は、QiD、モデルサイズ、および学習トークン数の関係を示している。左上に位置する点はより十分に学習されており、はるかに高いQiDを持つ一方で、右下の点はより学習不足であり、低いQiDを持つ。

Refer to caption
図12: 隣接するチェックポイント間のモデル重みの変化。初期(学習不足)のチェックポイントは、学習中に重みの大きな変動を示し、モデルを重みの変化に対して比較的頑健にする。そのため、量子化によって導入される小さな変化はモデルの性能に限定的な影響しか与えない。対照的に、十分に学習されたチェックポイントは、学習中の重みの変動がごくわずかである。その結果、低ビット量子化は重みを最近の変動の狭い範囲を超えて押し出す可能性が高く、性能の低下やモデルの崩壊につながる。

この観察を直観的に理解するために、図12に隣接するチェックポイント間のサンプリングされたモデル重みの変化を示す。初期のチェックポイントでは、重みに大きな変化が見られることがわかる。学習中の重みの大きな変動により、モデルは本質的に重みの変化に対して頑健になる。つまり、低ビット量子化によって精度の損失が生じても、モデル全体への影響は限定的である。一方、より十分に学習された後期のチェックポイントでは、重みの変化が非常に小さい(多くの場合、3〜4桁目以降の非常に小さなスケールでの変化)。このような場合、低ビット量子化は重みを最近の変動の小さな範囲外に移動させる可能性が非常に高く、モデルの性能低下や崩壊を引き起こす可能性がある。

別の観点から見ると、学習不足の段階では、モデルの重みは大きな変化を経験し、精度の次元を十分に活用していない。後期のより十分に学習された段階では、重みの調整が安定するにつれて、モデルは学習目標の最適化と言語モデリング性能の向上を継続するために、精度にますます依存するようになる。これは、情報ボトルネック理論における表現学習の2つの段階と一致する(Shwartz-Ziv & Tishby, 2017)。初期の学習段階では、勾配は大きな平均と小さな分散を持ち、高い精度は不要である。しかし、後期の学習段階では、勾配は小さな平均と大きな分散を持ち、モデルが効果的に収束するためにはより高い精度が必要となる。

4.2 QiD: A Signal that Measures an LLM’s Training Level

損失がこれ以上減少しないことをLLMが完全に訓練されたかどうかを判断する信号として使用する従来の研究とは異なり、我々はQiDを使用してLLMが完全に訓練されたかどうかを判断できるという新しい視点を導入する。低ビット量子化後にLLMが \approx 0のQiDを示す場合、第4.1節で議論したように、より高い精度を活用していないため、LLMが十分に訓練されていない可能性が高いことを示唆している。

表1: 異なるモデルサイズとビット幅に対して、ΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_sで測定された特定の訓練レベルを達成するために必要な訓練トークン数(兆単位)の予測。なお、ΔqLoss=0.2subscriptΔ𝑞𝐿𝑜𝑠𝑠0.2\Delta_{q}Loss=0.2roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s = 0.2は尤度が元の値の80%に減少したことを意味し(e0.20.8superscript𝑒0.20.8e^{-0.2}\approx 0.8italic_e start_POSTSUPERSCRIPT - 0.2 end_POSTSUPERSCRIPT ≈ 0.8)、ΔqLoss=0.5subscriptΔ𝑞𝐿𝑜𝑠𝑠0.5\Delta_{q}Loss=0.5roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s = 0.5は尤度が60%に減少したことを意味する(e0.50.6superscript𝑒0.50.6e^{-0.5}\approx 0.6italic_e start_POSTSUPERSCRIPT - 0.5 end_POSTSUPERSCRIPT ≈ 0.6)。
Model Size ΔqsubscriptΔ𝑞\Delta_{q}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPTLoss = 0.2 ΔqsubscriptΔ𝑞\Delta_{q}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPTLoss = 0.3 ΔqsubscriptΔ𝑞\Delta_{q}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPTLoss = 0.4 ΔqsubscriptΔ𝑞\Delta_{q}roman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPTLoss = 0.5
2 bits 3 bits 4 bits 2 bits 3 bits 4 bits 2 bits 3 bits 4 bits 2 bits 3 bits 4 bits
1B 0.0011 0.1089 1.4424 0.0025 0.1990 2.6786 0.0043 0.3051 4.1556 0.0066 0.4251 5.8422
7B 0.0026 0.3038 4.5066 0.0057 0.5550 8.3689 0.0099 0.8512 12.9836 0.0152 1.1860 18.2531
70B 0.0071 1.0228 17.3499 0.0154 1.8687 32.2192 0.0267 2.8659 49.9854 0.0409 3.9932 70.2723
405B 0.0151 2.5807 48.4861 0.0328 4.7151 90.0398 0.0567 7.2311 139.6892 0.0868 10.0754 196.3829

3.5節で導出された式(8)のスケーリング則を用いて、QiD予測に基づいて特定のLLMサイズが完全に訓練されたと見なされるために必要な訓練トークン数を推定できる。表1は、低ビット量子化を適用した際にΔqLosssubscriptΔ𝑞𝐿𝑜𝑠𝑠\Delta_{q}Lossroman_Δ start_POSTSUBSCRIPT italic_q end_POSTSUBSCRIPT italic_L italic_o italic_s italic_s = {0.2, 0.3, 0.4, 0.5}を達成するために、異なるモデルサイズに必要な訓練トークン数を示している。70Bスケールのモデルの場合、4ビット量子化で0.2以上のQiD(尤度が20%減少することに相当)を達成するには、17兆以上の訓練トークンが必要である。対照的に、405BスケールのLLMの場合、4ビット量子化で0.2以上のQiDを達成するには、約50兆の訓練トークンが必要である。これは現在達成されているものをはるかに超えるスケールであり、極めて大規模なLLMに対する現在の訓練の取り組みがまだ十分ではない可能性があることを示している。

Refer to caption
図13: 過去4年間で、最先端の7Bスケールのモデルの訓練トークン数は約50×50\times50 ×倍に増加している。この傾向に従えば、将来のモデルはさらに多くの訓練トークンを持つことが予想される。

4.3 QiD Prediction When Scaling to 100 Trillion Training Tokens

13は、2020年から現在までの最先端の7BスケールのLLMのトレーニングトークン数の傾向を示しており、過去4年間でトレーニングトークン数が約50×50\times50 ×倍に増加したことを示している。この傾向に基づくと、2025-2026年のLLMは最大1000兆(1014superscript101410^{14}10 start_POSTSUPERSCRIPT 14 end_POSTSUPERSCRIPT)トークンでトレーニングされる可能性が非常に高い555インターネットデータが枯渇に近づいているという主張があるものの、最近の合成データ作成における継続的な革新(Ge et al., 2024)により、我々は1000兆トレーニングトークンのマイルストーンが今後数年で達成可能であると考えている。

導出されたスケーリング則を用いて、我々は1000兆トークンでトレーニングされた量子化LLMの性能を予測し、本稿の冒頭の図1に示している。特に、前例のない1000兆トークンのトレーニングスケールにおける2ビットおよび3ビット量子化での性能劣化は深刻であると予測されており、これは現在の1013superscript101310^{13}10 start_POSTSUPERSCRIPT 13 end_POSTSUPERSCRIPTトークンのトレーニングスケールでの許容可能な性能と対照的である。このことは、将来のLLMへの低ビット量子化の実用的な適用に課題があることを示している。

4.4 From Low-bit Quantization to Low-bit LLMs

本稿は主に低ビット(事後)量子化に焦点を当てているが、我々は、ネイティブな低ビットLLMも未学習のLLMを好む可能性が高いと推測している。我々は、人気の1ビットLLMであるBitNet b1.58 (Ma et al., 2024)を再現し、学習全体を通してそのbf16カウンターパートと比較した。具体的には、120Mおよび1.2Bのデコーダーのみのモデルをbf16とBitNetの両方で学習させた。図14は、学習の初期および中期段階におけるBitNetと16ビットカウンターパートの学習損失の比較を示している。学習の初期段階では、BitNetの学習損失曲線がbf16のものと密接に一致(さらには上回る)ことが観察できる。これは、BitNetがその学習レシピに従ってbf16学習よりも高い学習率を使用する傾向があるためである。学習が進むにつれて、120M BitNetは徐々にそのbf16カウンターパートに遅れ始め、さらに学習ステップが進むと、1.2Bモデルで顕著な差が現れ始める。これは、低ビット量子化に関する我々の観察と一致している。このことは、BitNetのようなネイティブな低ビットLLM666我々は、オリジナルのBitNet論文といくつかのオープンソース再実装をレビューし、それらの学習トークン数が最大1000億であることを発見した。モデルサイズと、ネイティブな低ビットLLMのパフォーマンスギャップが事後量子化と比較して後に現れる傾向があることを考慮すると、我々はより大規模な学習スケール(つまり、より多くの学習トークン)でのパフォーマンスに懸念を表明する。我々は、ネイティブな低ビットLLMの実用的価値をより適切に正当化するために、より大規模な学習スケールでの結果を求める。も未学習のLLMを好む可能性があることを示している。ただし、ネイティブな低ビット学習は学習プロセス全体を通じてモデルが低精度で動作できる能力を維持するため、事後量子化と比較してギャップの出現が遅れる。

Refer to caption
Refer to caption
図14: BitNetとその16ビットカウンターパートの学習損失は、低ビット量子化と同様の傾向を示している - 未学習の場合にはうまく機能する傾向があるが、完全に学習されたLLMのパフォーマンスに匹敵するのに苦戦する。

5 Conclusion

我々は1500以上の量子化されたLLMチェックポイントから低ビット量子化のスケーリング則を導出し、低ビット量子化が訓練不足のLLMを好むことを明らかにした。本稿では、この現象に対する直感的な解釈を提供し、モデルの訓練レベルを判断するシグナルとしてQiDを使用するという新しい視点を導入している。さらに、導出されたスケーリング則を用いて、100兆トークンで訓練されたLLMに対する低ビット量子化の効果を予測した。これは一方で、低ビット量子化の将来的な実用的価値に疑問を投げかけ、他方で、低ビット量子化に関する今後の研究では評価時にモデルの訓練レベルを考慮すべきであることを示唆している。低ビットLLMの限界を真剣に検討する並行研究(Kumar et al., 2024; Feng et al., 2024)とともに、本研究が周囲の誇大宣伝から冷静になり、この分野でより深い省察と批判的検討を促すことを期待している。

Limitations

本研究には以下の制限事項がある:

  • 我々は1500以上の量子化チェックポイントから広範な実験を行い、スケーリング則を導出するために最善を尽くしたが、それでもなお十分に広範とは言えない。例えば、我々のPythiaを用いた実験で使用した学習トークンは3000億に過ぎない。将来的には、より多くの量子化チェックポイントからの観察結果を得て、我々が導出したスケーリング則をさらに洗練させることを期待している。

  • 本研究で導出されたスケーリング則は、主に単段階の事前学習言語モデルに焦点を当てている。しかし、今日の先進的なLLMはしばしば教師あり微調整や選好最適化を含む多段階学習戦略を採用しており、事前学習内でも複数の段階が関与することが多い(例えば、Llama-3.1は最終的な事前学習段階で高品質のテキスト、数学、推論、コードデータにより重点を置いている)。このような多段階学習戦略は、量子化後のモデルの挙動に大きな影響を与える可能性があり、我々は今後の研究でこれを探求する予定である。

References

  • Bai et al. (2020) Haoli Bai, Wei Zhang, Lu Hou, Lifeng Shang, Jing Jin, Xin Jiang, Qun Liu, Michael Lyu, and Irwin King. Binarybert: Pushing the limit of bert quantization. arXiv preprint arXiv:2012.15701, 2020.
  • Banner et al. (2019) Ron Banner, Yury Nahshan, and Daniel Soudry. Post training 4-bit quantization of convolutional networks for rapid-deployment. Advances in Neural Information Processing Systems, 32, 2019.
  • Biderman et al. (2023) Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, et al. Pythia: A suite for analyzing large language models across training and scaling. In International Conference on Machine Learning, pp.  2397–2430. PMLR, 2023.
  • Dettmers et al. (2022) Tim Dettmers, Mike Lewis, Younes Belkada, and Luke Zettlemoyer. Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale. Advances in Neural Information Processing Systems, 35:30318–30332, 2022.
  • Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Egiazarian et al. (2024) Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, and Dan Alistarh. Extreme compression of large language models via additive quantization. arXiv preprint arXiv:2401.06118, 2024.
  • Feng et al. (2024) Guhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He, Zhenguo Li, and Liwei Wang. How numerical precision affects mathematical reasoning capabilities of llms. arXiv preprint arXiv:2410.13857, 2024.
  • Frantar et al. (2022) Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. Gptq: Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323, 2022.
  • Ge et al. (2024) Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, and Dong Yu. Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094, 2024.
  • Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
  • Huang et al. (2024) Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, and Xiaojuan Qi. Billm: Pushing the limit of post-training quantization for llms. arXiv preprint arXiv:2402.04291, 2024.
  • Jacob et al. (2018) Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.  2704–2713, 2018.
  • Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
  • Kaushal et al. (2024) Ayush Kaushal, Tejas Vaidhya, Arnab Kumar Mondal, Tejas Pandey, Aaryan Bhagat, and Irina Rish. Spectra: Surprising effectiveness of pretraining ternary language models at scale. arXiv preprint arXiv:2407.12327, 2024.
  • Krishnamoorthi (2018) Raghuraman Krishnamoorthi. Quantizing deep convolutional networks for efficient inference: A whitepaper. arXiv preprint arXiv:1806.08342, 2018.
  • Kumar et al. (2024) Tanishq Kumar, Zachary Ankner, Benjamin F Spector, Blake Bordelon, Niklas Muennighoff, Mansheej Paul, Cengiz Pehlevan, Christopher Ré, and Aditi Raghunathan. Scaling laws for precision. arXiv preprint arXiv:2411.04330, 2024.
  • Lin et al. (2024) Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, and Song Han. Awq: Activation-aware weight quantization for on-device llm compression and acceleration. Proceedings of Machine Learning and Systems, 6:87–100, 2024.
  • Liu et al. (2023) Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, and Bohan Zhuang. Qllm: Accurate and efficient low-bitwidth quantization for large language models. arXiv preprint arXiv:2310.08041, 2023.
  • Liu et al. (2024) Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaozhuo Xu, Vladimir Braverman, Beidi Chen, and Xia Hu. Kivi: A tuning-free asymmetric 2bit quantization for kv cache. arXiv preprint arXiv:2402.02750, 2024.
  • Ma et al. (2024) Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, and Furu Wei. The era of 1-bit llms: All large language models are in 1.58 bits. arXiv preprint arXiv:2402.17764, 2024.
  • Merity et al. (2016) Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. Pointer sentinel mixture models. arXiv preprint arXiv:1609.07843, 2016.
  • Penedo et al. (2023) Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. The refinedweb dataset for falcon llm: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116, 2023.
  • Shen et al. (2024) Xuan Shen, Peiyan Dong, Lei Lu, Zhenglun Kong, Zhengang Li, Ming Lin, Chao Wu, and Yanzhi Wang. Agile-quant: Activation-guided quantization for faster inference of llms on the edge. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp.  18944–18951, 2024.
  • Shwartz-Ziv & Tishby (2017) Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
  • Touvron et al. (2023) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
  • Wang et al. (2023) Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, and Furu Wei. Bitnet: Scaling 1-bit transformers for large language models. arXiv preprint arXiv:2310.11453, 2023.
  • Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.
  • Zafrir et al. (2019) Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8bert: Quantized 8bit bert. In 2019 Fifth Workshop on Energy Efficient Machine Learning and Cognitive Computing-NeurIPS Edition (EMC2-NIPS), pp.  36–39. IEEE, 2019.
  • Zhang et al. (2024) Cheng Zhang, Jianyi Cheng, George A Constantinides, and Yiren Zhao. Lqer: Low-rank quantization error reconstruction for llms. arXiv preprint arXiv:2402.02446, 2024.
  • Zhang et al. (2020) Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, and Qun Liu. Ternarybert: Distillation-aware ultra-low bit bert. arXiv preprint arXiv:2009.12812, 2020.
  • Zhong et al. (2024) Yunshan Zhong, Jiawei Hu, You Huang, Yuxin Zhang, and Rongrong Ji. Erq: Error reduction for post-training quantization of vision transformers. arXiv preprint arXiv:2407.06794, 2024.

Appendix A Appendix

A.1 Implementation Details

Checkpoints of the Pythia

我々は、スケーリング則を適合させるために、以下の20のステップにおけるPythiaモデルのチェックポイントを選択した:{512, 1k, 2k, 4k, 6k, 8k, 10k, 12k, 14k, 20k, 24k, 29k, 36k, 43k, 57k, 71k, 86k, 93k, 95k, 98k}。

Tokenization consistency

クロスエントロピー損失を計算するためのトークン数の一貫性を確保するために(これは異なるトークナイザーで変わる可能性がある)、本稿では全てのQiD計算においてLlama-3 8B (Dubey et al., 2024) トークナイザーによって生成されたトークン数を使用している。