Low-Bit Quantization Favors Undertrained LLMs:
Scaling Laws for Quantized LLMs with 100T Training Tokens
Abstract
我々は、低ビット量子化が十分に訓練されていない大規模言語モデル(LLM)に有利であることを明らかにした。これは、モデルのサイズが大きいほど、または訓練トークン数が少ないほど、低ビット量子化を適用した際の量子化誘導劣化(QiD)が少ないのに対し、小規模なモデルで大量の訓練トークンを使用した場合は著しいQiDを被ることを観察したことによる。この傾向をより深く理解するため、我々は制御された環境下で、様々なサイズと訓練レベル(十分に訓練されていないものと完全に訓練されたもの)の1500以上の量子化されたLLMチェックポイントを研究し、QiDと訓練トークン数、モデルサイズ、ビット幅などの要因との関係を理解するためのスケーリング則を導出した。
導出されたスケーリング則を用いて、我々はQiDを使用してLLMの訓練レベルを測定し、様々なサイズのLLMを完全に訓練するために必要な訓練トークン数を決定できるという新しい視点を提案する。さらに、我々はスケーリング則を用いて、100 trillionトークンで訓練された異なるサイズのLLMの量子化性能を予測する。我々の予測によると、100兆トークン以上で訓練されると予想される将来のモデルの低ビット量子化性能は、望ましくない可能性がある。これは、将来の低ビット量子化に潜在的な課題を提起し、低ビット量子化研究を評価する際にモデルの訓練レベルを認識する必要性を強調している。本問題に関する将来の研究を促進するため、本稿で使用した1500以上の量子化されたチェックポイントをhttps://huggingface.co/Xu-Ouyangで公開する。
1 Introduction
量子化 (Jacob et al., 2018; Krishnamoorthi, 2018; Banner et al., 2019; Frantar et al., 2022; Shen et al., 2024; Lin et al., 2024; Zhang et al., 2024) は、モデルのディスクサイズとメモリフットプリントを削減し、低精度の重みと活性化を通じて推論効率を向上させることにより、大規模言語モデル(LLM)を効率的に展開するための最も一般的な技術の一つである。過去数年間でモデルサイズが継続的に増大するにつれ、研究者たちは従来の8ビット量子化 (Zafrir et al., 2019; Dettmers et al., 2022; Zhong et al., 2024) を超えて、さらに低いビット幅 (Bai et al., 2020; Zhang et al., 2020; Wang et al., 2023; Liu et al., 2023; Egiazarian et al., 2024; Liu et al., 2024; Huang et al., 2024) の探求を始め、低ビット量子化に関する研究への関心が急増している。
低ビット量子化は、量子化による劣化(QiD)がほとんどない一部のLLMチェックポイントでは良好に機能するが、我々はこれらのチェックポイントが通常、より大きなモデルサイズか、より少ない学習トークン数のいずれかであることを観察している。対照的に、小規模なモデルやはるかに多くのトークンで学習されたモデルは、低ビット量子化を適用した際に著しいQiDを被る傾向がある。図2(右)に示すように、3ビット量子化は120億パラメータのLLMに対して学習トークンまでは無視できるQiDをもたらすが、この点を超えるとQiDが顕著になり始める。小規模なモデル(例えば、1億6000万および10億パラメータ)では、QiDの劣化がはるかに早く発生し、より深刻である。図2(左)に示すようにさらに極端な2ビット量子化では、傾向は類似しているが、QiDはより早く、より顕著に悪化する。この観察は、低ビット量子化が学習不足のLLMを好む傾向があり、十分に学習されたLLMとの互換性が低いことを示唆している。
この傾向についてより深い洞察を得るために、我々は様々なサイズ(160Mから12Bまで)と異なる訓練レベル11本研究における訓練レベルとは、LLMが訓練された程度(例えば、訓練不足、完全に訓練された、または過剰訓練された)を指し、訓練トークン数とモデルサイズの両方に関連している。(1Bから206Bの訓練トークンで訓練)の1500以上の量子化されたLLMチェックポイントを研究し、制御された環境下でそれらに対する低ビット量子化の影響を分析する。我々は、訓練トークン数、モデルサイズ、ビット幅に関してQiDをモデル化するスケーリング則を導出する。導出されたスケーリング則に基づき、我々はQiDを使用してLLMの訓練レベルを測定し、そのサイズに応じてLLMを完全に訓練するために必要な訓練トークン数を決定できるという新しい視点を提案する。さらに、我々はスケーリング則を使用して、100兆の訓練トークンで低ビット量子化を適用した場合の異なるサイズのLLMの性能を予測する。我々の予測によると、100兆トークン以上で訓練されると予想される将来のモデルの低ビット量子化は望ましくない可能性があり、これは将来の低ビット量子化における潜在的な課題を示唆し、将来の低ビット量子化研究の評価においてモデルの訓練レベルを考慮すべきであることを示している。
本稿の貢献は以下の3点である:
-
•
我々は、低ビット量子化が十分に訓練されていないLLMに有利である一方で、完全に訓練されたLLMに適用した場合、量子化誘導劣化(QiD)による著しい性能低下を引き起こすことを明らかにした。この洞察は、これまでの低ビット量子化研究では大きく見過ごされてきた。提案された低ビット量子化アプローチを評価する際に、量子化されたLLMの訓練レベルを考慮した研究はごくわずかであった。
-
•
我々は、訓練トークン数、モデルサイズ、ビット幅に関するQiDをモデル化するためのスケーリング則を導出した。これらのスケーリング則を用いて、LLMが完全に訓練されているかどうかを測定する信号としてQiDを使用し、異なるサイズのLLMが完全に訓練された状態に達するために必要な訓練トークン数を推定することを提案する。さらに、このスケーリング則を用いて、100兆トークンで訓練された異なるサイズのLLMに対する低ビット量子化の性能を予測する。我々の予測は、低ビット量子化の将来の応用に対する潜在的な課題を示している。
-
•
我々は、この研究で使用された1500以上の量子化されたチェックポイントをすべて公開し、この問題に関する将来の研究を促進する。
2 Preliminary: Scaling Laws for Large Language Models
大規模言語モデルのスケーリング則(Kaplan et al., 2020; Hoffmann et al., 2022)は、これらのモデルの性能がパラメータ数や学習トークン数などの規模の増加に伴いどのように向上するかを理解する上で極めて重要である:
Number of Parameters
LLMの性能は通常、パラメータ数の増加に伴いべき乗則に従って向上し、より大規模なモデルが同じデータセットに対してより適合し、一般化できるようになる:
(1) |
ここで、は(非埋め込みパラメータ数)に依存する損失関数22本稿では主に言語モデリングのクロスエントロピー損失について議論する。であり、は定数(係数)、はスケーリング指数、は誤差項を表す。この関係は、より大規模なモデルが一般的に言語の複雑性をより捉えることができ、より良い一般化と低い損失につながることを示している。
Training Tokens
より多くの学習トークンもまた、べき乗則に従って性能を向上させ、モデルがより効果的に言語の複雑性を捉えることを可能にする:
(2) |
ここで、は学習トークン数を表し、は定数(係数)、は学習トークンのスケーリング指数である。より多くの学習トークンは、LLMの学習と一般化能力を向上させ、より低い損失でより良い言語モデリング性能を達成することを可能にする。
パラメータ数と学習データ量の両方を同時にスケールする場合、スケーリング則は両者の複合的な効果を考慮した関数として表現できる:
(3) |
このスケーリング則により、我々は実際の学習を行う前に、前例のないモデルサイズと学習データ規模における言語モデルの性能を効果的に推定することができる。
3 Scaling Laws for Low-bit Quantization
本節では、低ビット量子化のスケーリング則を提案する。第2節で議論したスケーリング則とは異なり、ここでの焦点は、様々な訓練規模のLLMに低ビット量子化を適用した際に、量子化誘導劣化(QiD)がどのように変化するかを理解することである。形式的には、QiDは以下のように定義される:
(4) |
ここで、は量子化されたLLMのクロスエントロピー損失であり、は量子化前のfp16またはbf16の重みを持つ対応するモデルのクロスエントロピー損失である。はQiDを表し、低ビット量子化の適用前後の損失の差である。
言語モデリングの従来のスケーリング則に触発され、我々はモデルサイズと訓練トークン数がQiDに与える影響を調査する。さらに、ビット幅(すなわち、量子化された重み値の精度)も考慮する。
3.1 Experimental Setting
我々は実験のために、Pythiaスイート(Biderman et al., 2023)からオープンソースのLLMを選択した。Pythiaは様々なサイズのLLMを含むだけでなく、その訓練プロセス全体(ゼロから3000億トークンまで)のすべてのチェックポイントへのアクセスを提供しており、これにより我々は制御された設定で実験を行い、低ビット量子化のスケーリング則を導出することができる。
我々は6つの異なるサイズのPythia LLMを選択した:160M、410M、1B、2.8B、6.9B、12B。各サイズについて、98kステップまでの20のチェックポイントをサンプリングした(付録A.1参照)3398kステップは約2060億トークンに相当し、これはPythiaの訓練データの1エポックに相当する。Pythiaは143kステップまで訓練されたが、98kステップ以降のチェックポイントは、おそらく既に訓練されたデータの2回目のエポックを表すため、重複データの影響を避けるためにスキップした。。
量子化については、最も一般的なLLM量子化技術の1つであるGPTQ (Frantar et al., 2022) を用いて、Pythiaのチェックポイントを2ビット、3ビット、4ビットレベルに量子化した。
我々はRefinedWebデータセット(Penedo et al., 2023)からランダムにサンプリングした1,000のテキストでQiDを評価した。
3.2 Training Tokens
従来の言語モデリングのスケーリング則では学習トークン数が分母に現れるのに対し、我々は学習トークンとQiDの関係について以下のように提案する:
(5) |
これは、図2での我々の観察によると、学習トークンが多いほどQiDが顕著になるためである。
我々は上記の関数形を用いて、3で量子化されたPythiaチェックポイントで観察されたQiDをフィットし、を得た。これは学習トークンの変化に対するQiDの傾向によく適合している。
3.3 Model Size
3.4 Bit Width
3.5 Unified Scaling Law
第3.2節(訓練トークン数)、第3.3節(モデルサイズ)、および第3.4節(ビット幅)で導出した基本的なスケーリング則を用いて、我々は3つの要因を全て考慮してQiDをモデル化する方法を研究する。Kaplan et al. (2020)に触発され、我々は要因を統一するために以下の4つの原則を考慮する:
-
•
DとPを固定し、とすると、が予想される。
-
•
NとPを固定し、とすると、が予想される。
-
•
NとDを固定し、とすると、が予想される。
-
•
NとDを固定し、とすると、は非常に大きくなるはずである。
我々は低ビット量子化のための統一スケーリング則を以下のように提案する:
(8) |
ここで、は結合係数であり、係数と指数(、、)はいずれも正である。図6は、この関数形を用いてフィッティングした曲線を示している。共同でフィッティングした指数、、およびは、これらの変数を独立にフィッティングして得られた値と密接に一致しており、結合関数形の有効性をさらに裏付けている。
3.6 Validation with Ablation Studies
我々は、3.5節で導出したスケーリング則を、異なるテストデータ、量子化手法、および基盤モデルを用いて検証する。
3.6.1 Test Data
3.6.2 Quantization Methods
我々は、GPTQに加えて、他の2つの一般的な量子化手法であるAWQ (Lin et al., 2024)とbitandbytes444https://github.com/bitsandbytes-foundation/bitsandbytesを用いてPythiaのチェックポイントを量子化した。図9にQiDの結果と適合したスケーリング則を示す。異なる量子化手法におけるQiDの傾向がほぼ同一であることが観察されるが、適合したスケーリング則にはわずかな差異が見られる。
3.6.3 Foundation Models
4 Discussion: Low-bit Quantization Favors Undertrained LLMs
4.1 Intuition
第3節で導出したスケーリング則に基づき、我々は低ビット量子化が、より少ない学習トークン数またはより大きなモデルサイズを持つモデルを好む傾向があることを確認した。これらは本質的に学習不足のLLMである。
図11は、QiD、モデルサイズ、および学習トークン数の関係を示している。左上に位置する点はより十分に学習されており、はるかに高いQiDを持つ一方で、右下の点はより学習不足であり、低いQiDを持つ。
この観察を直観的に理解するために、図12に隣接するチェックポイント間のサンプリングされたモデル重みの変化を示す。初期のチェックポイントでは、重みに大きな変化が見られることがわかる。学習中の重みの大きな変動により、モデルは本質的に重みの変化に対して頑健になる。つまり、低ビット量子化によって精度の損失が生じても、モデル全体への影響は限定的である。一方、より十分に学習された後期のチェックポイントでは、重みの変化が非常に小さい(多くの場合、3〜4桁目以降の非常に小さなスケールでの変化)。このような場合、低ビット量子化は重みを最近の変動の小さな範囲外に移動させる可能性が非常に高く、モデルの性能低下や崩壊を引き起こす可能性がある。
別の観点から見ると、学習不足の段階では、モデルの重みは大きな変化を経験し、精度の次元を十分に活用していない。後期のより十分に学習された段階では、重みの調整が安定するにつれて、モデルは学習目標の最適化と言語モデリング性能の向上を継続するために、精度にますます依存するようになる。これは、情報ボトルネック理論における表現学習の2つの段階と一致する(Shwartz-Ziv & Tishby, 2017)。初期の学習段階では、勾配は大きな平均と小さな分散を持ち、高い精度は不要である。しかし、後期の学習段階では、勾配は小さな平均と大きな分散を持ち、モデルが効果的に収束するためにはより高い精度が必要となる。
4.2 QiD: A Signal that Measures an LLM’s Training Level
損失がこれ以上減少しないことをLLMが完全に訓練されたかどうかを判断する信号として使用する従来の研究とは異なり、我々はQiDを使用してLLMが完全に訓練されたかどうかを判断できるという新しい視点を導入する。低ビット量子化後にLLMが 0のQiDを示す場合、第4.1節で議論したように、より高い精度を活用していないため、LLMが十分に訓練されていない可能性が高いことを示唆している。
Model Size | Loss = 0.2 | Loss = 0.3 | Loss = 0.4 | Loss = 0.5 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
2 bits | 3 bits | 4 bits | 2 bits | 3 bits | 4 bits | 2 bits | 3 bits | 4 bits | 2 bits | 3 bits | 4 bits | |
1B | 0.0011 | 0.1089 | 1.4424 | 0.0025 | 0.1990 | 2.6786 | 0.0043 | 0.3051 | 4.1556 | 0.0066 | 0.4251 | 5.8422 |
7B | 0.0026 | 0.3038 | 4.5066 | 0.0057 | 0.5550 | 8.3689 | 0.0099 | 0.8512 | 12.9836 | 0.0152 | 1.1860 | 18.2531 |
70B | 0.0071 | 1.0228 | 17.3499 | 0.0154 | 1.8687 | 32.2192 | 0.0267 | 2.8659 | 49.9854 | 0.0409 | 3.9932 | 70.2723 |
405B | 0.0151 | 2.5807 | 48.4861 | 0.0328 | 4.7151 | 90.0398 | 0.0567 | 7.2311 | 139.6892 | 0.0868 | 10.0754 | 196.3829 |
第3.5節で導出された式(8)のスケーリング則を用いて、QiD予測に基づいて特定のLLMサイズが完全に訓練されたと見なされるために必要な訓練トークン数を推定できる。表1は、低ビット量子化を適用した際に = {0.2, 0.3, 0.4, 0.5}を達成するために、異なるモデルサイズに必要な訓練トークン数を示している。70Bスケールのモデルの場合、4ビット量子化で0.2以上のQiD(尤度が20%減少することに相当)を達成するには、17兆以上の訓練トークンが必要である。対照的に、405BスケールのLLMの場合、4ビット量子化で0.2以上のQiDを達成するには、約50兆の訓練トークンが必要である。これは現在達成されているものをはるかに超えるスケールであり、極めて大規模なLLMに対する現在の訓練の取り組みがまだ十分ではない可能性があることを示している。
4.3 QiD Prediction When Scaling to 100 Trillion Training Tokens
図13は、2020年から現在までの最先端の7BスケールのLLMのトレーニングトークン数の傾向を示しており、過去4年間でトレーニングトークン数が約倍に増加したことを示している。この傾向に基づくと、2025-2026年のLLMは最大1000兆()トークンでトレーニングされる可能性が非常に高い555インターネットデータが枯渇に近づいているという主張があるものの、最近の合成データ作成における継続的な革新(Ge et al., 2024)により、我々は1000兆トレーニングトークンのマイルストーンが今後数年で達成可能であると考えている。。
導出されたスケーリング則を用いて、我々は1000兆トークンでトレーニングされた量子化LLMの性能を予測し、本稿の冒頭の図1に示している。特に、前例のない1000兆トークンのトレーニングスケールにおける2ビットおよび3ビット量子化での性能劣化は深刻であると予測されており、これは現在のトークンのトレーニングスケールでの許容可能な性能と対照的である。このことは、将来のLLMへの低ビット量子化の実用的な適用に課題があることを示している。
4.4 From Low-bit Quantization to Low-bit LLMs
本稿は主に低ビット(事後)量子化に焦点を当てているが、我々は、ネイティブな低ビットLLMも未学習のLLMを好む可能性が高いと推測している。我々は、人気の1ビットLLMであるBitNet b1.58 (Ma et al., 2024)を再現し、学習全体を通してそのbf16カウンターパートと比較した。具体的には、120Mおよび1.2Bのデコーダーのみのモデルをbf16とBitNetの両方で学習させた。図14は、学習の初期および中期段階におけるBitNetと16ビットカウンターパートの学習損失の比較を示している。学習の初期段階では、BitNetの学習損失曲線がbf16のものと密接に一致(さらには上回る)ことが観察できる。これは、BitNetがその学習レシピに従ってbf16学習よりも高い学習率を使用する傾向があるためである。学習が進むにつれて、120M BitNetは徐々にそのbf16カウンターパートに遅れ始め、さらに学習ステップが進むと、1.2Bモデルで顕著な差が現れ始める。これは、低ビット量子化に関する我々の観察と一致している。このことは、BitNetのようなネイティブな低ビットLLM666我々は、オリジナルのBitNet論文といくつかのオープンソース再実装をレビューし、それらの学習トークン数が最大1000億であることを発見した。モデルサイズと、ネイティブな低ビットLLMのパフォーマンスギャップが事後量子化と比較して後に現れる傾向があることを考慮すると、我々はより大規模な学習スケール(つまり、より多くの学習トークン)でのパフォーマンスに懸念を表明する。我々は、ネイティブな低ビットLLMの実用的価値をより適切に正当化するために、より大規模な学習スケールでの結果を求める。も未学習のLLMを好む可能性があることを示している。ただし、ネイティブな低ビット学習は学習プロセス全体を通じてモデルが低精度で動作できる能力を維持するため、事後量子化と比較してギャップの出現が遅れる。
5 Conclusion
我々は1500以上の量子化されたLLMチェックポイントから低ビット量子化のスケーリング則を導出し、低ビット量子化が訓練不足のLLMを好むことを明らかにした。本稿では、この現象に対する直感的な解釈を提供し、モデルの訓練レベルを判断するシグナルとしてQiDを使用するという新しい視点を導入している。さらに、導出されたスケーリング則を用いて、100兆トークンで訓練されたLLMに対する低ビット量子化の効果を予測した。これは一方で、低ビット量子化の将来的な実用的価値に疑問を投げかけ、他方で、低ビット量子化に関する今後の研究では評価時にモデルの訓練レベルを考慮すべきであることを示唆している。低ビットLLMの限界を真剣に検討する並行研究(Kumar et al., 2024; Feng et al., 2024)とともに、本研究が周囲の誇大宣伝から冷静になり、この分野でより深い省察と批判的検討を促すことを期待している。
Limitations
本研究には以下の制限事項がある:
-
•
我々は1500以上の量子化チェックポイントから広範な実験を行い、スケーリング則を導出するために最善を尽くしたが、それでもなお十分に広範とは言えない。例えば、我々のPythiaを用いた実験で使用した学習トークンは3000億に過ぎない。将来的には、より多くの量子化チェックポイントからの観察結果を得て、我々が導出したスケーリング則をさらに洗練させることを期待している。
-
•
本研究で導出されたスケーリング則は、主に単段階の事前学習言語モデルに焦点を当てている。しかし、今日の先進的なLLMはしばしば教師あり微調整や選好最適化を含む多段階学習戦略を採用しており、事前学習内でも複数の段階が関与することが多い(例えば、Llama-3.1は最終的な事前学習段階で高品質のテキスト、数学、推論、コードデータにより重点を置いている)。このような多段階学習戦略は、量子化後のモデルの挙動に大きな影響を与える可能性があり、我々は今後の研究でこれを探求する予定である。
References
- Bai et al. (2020) Haoli Bai, Wei Zhang, Lu Hou, Lifeng Shang, Jing Jin, Xin Jiang, Qun Liu, Michael Lyu, and Irwin King. Binarybert: Pushing the limit of bert quantization. arXiv preprint arXiv:2012.15701, 2020.
- Banner et al. (2019) Ron Banner, Yury Nahshan, and Daniel Soudry. Post training 4-bit quantization of convolutional networks for rapid-deployment. Advances in Neural Information Processing Systems, 32, 2019.
- Biderman et al. (2023) Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, et al. Pythia: A suite for analyzing large language models across training and scaling. In International Conference on Machine Learning, pp. 2397–2430. PMLR, 2023.
- Dettmers et al. (2022) Tim Dettmers, Mike Lewis, Younes Belkada, and Luke Zettlemoyer. Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale. Advances in Neural Information Processing Systems, 35:30318–30332, 2022.
- Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
- Egiazarian et al. (2024) Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, and Dan Alistarh. Extreme compression of large language models via additive quantization. arXiv preprint arXiv:2401.06118, 2024.
- Feng et al. (2024) Guhao Feng, Kai Yang, Yuntian Gu, Xinyue Ai, Shengjie Luo, Jiacheng Sun, Di He, Zhenguo Li, and Liwei Wang. How numerical precision affects mathematical reasoning capabilities of llms. arXiv preprint arXiv:2410.13857, 2024.
- Frantar et al. (2022) Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. Gptq: Accurate post-training quantization for generative pre-trained transformers. arXiv preprint arXiv:2210.17323, 2022.
- Ge et al. (2024) Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, and Dong Yu. Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094, 2024.
- Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
- Huang et al. (2024) Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, and Xiaojuan Qi. Billm: Pushing the limit of post-training quantization for llms. arXiv preprint arXiv:2402.04291, 2024.
- Jacob et al. (2018) Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2704–2713, 2018.
- Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
- Kaushal et al. (2024) Ayush Kaushal, Tejas Vaidhya, Arnab Kumar Mondal, Tejas Pandey, Aaryan Bhagat, and Irina Rish. Spectra: Surprising effectiveness of pretraining ternary language models at scale. arXiv preprint arXiv:2407.12327, 2024.
- Krishnamoorthi (2018) Raghuraman Krishnamoorthi. Quantizing deep convolutional networks for efficient inference: A whitepaper. arXiv preprint arXiv:1806.08342, 2018.
- Kumar et al. (2024) Tanishq Kumar, Zachary Ankner, Benjamin F Spector, Blake Bordelon, Niklas Muennighoff, Mansheej Paul, Cengiz Pehlevan, Christopher Ré, and Aditi Raghunathan. Scaling laws for precision. arXiv preprint arXiv:2411.04330, 2024.
- Lin et al. (2024) Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, and Song Han. Awq: Activation-aware weight quantization for on-device llm compression and acceleration. Proceedings of Machine Learning and Systems, 6:87–100, 2024.
- Liu et al. (2023) Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, and Bohan Zhuang. Qllm: Accurate and efficient low-bitwidth quantization for large language models. arXiv preprint arXiv:2310.08041, 2023.
- Liu et al. (2024) Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaozhuo Xu, Vladimir Braverman, Beidi Chen, and Xia Hu. Kivi: A tuning-free asymmetric 2bit quantization for kv cache. arXiv preprint arXiv:2402.02750, 2024.
- Ma et al. (2024) Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, and Furu Wei. The era of 1-bit llms: All large language models are in 1.58 bits. arXiv preprint arXiv:2402.17764, 2024.
- Merity et al. (2016) Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. Pointer sentinel mixture models. arXiv preprint arXiv:1609.07843, 2016.
- Penedo et al. (2023) Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. The refinedweb dataset for falcon llm: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116, 2023.
- Shen et al. (2024) Xuan Shen, Peiyan Dong, Lei Lu, Zhenglun Kong, Zhengang Li, Ming Lin, Chao Wu, and Yanzhi Wang. Agile-quant: Activation-guided quantization for faster inference of llms on the edge. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 38, pp. 18944–18951, 2024.
- Shwartz-Ziv & Tishby (2017) Ravid Shwartz-Ziv and Naftali Tishby. Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810, 2017.
- Touvron et al. (2023) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
- Wang et al. (2023) Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, and Furu Wei. Bitnet: Scaling 1-bit transformers for large language models. arXiv preprint arXiv:2310.11453, 2023.
- Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024.
- Zafrir et al. (2019) Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8bert: Quantized 8bit bert. In 2019 Fifth Workshop on Energy Efficient Machine Learning and Cognitive Computing-NeurIPS Edition (EMC2-NIPS), pp. 36–39. IEEE, 2019.
- Zhang et al. (2024) Cheng Zhang, Jianyi Cheng, George A Constantinides, and Yiren Zhao. Lqer: Low-rank quantization error reconstruction for llms. arXiv preprint arXiv:2402.02446, 2024.
- Zhang et al. (2020) Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, and Qun Liu. Ternarybert: Distillation-aware ultra-low bit bert. arXiv preprint arXiv:2009.12812, 2020.
- Zhong et al. (2024) Yunshan Zhong, Jiawei Hu, You Huang, Yuxin Zhang, and Rongrong Ji. Erq: Error reduction for post-training quantization of vision transformers. arXiv preprint arXiv:2407.06794, 2024.
Appendix A Appendix
A.1 Implementation Details
Checkpoints of the Pythia
我々は、スケーリング則を適合させるために、以下の20のステップにおけるPythiaモデルのチェックポイントを選択した:{512, 1k, 2k, 4k, 6k, 8k, 10k, 12k, 14k, 20k, 24k, 29k, 36k, 43k, 57k, 71k, 86k, 93k, 95k, 98k}。
Tokenization consistency
クロスエントロピー損失を計算するためのトークン数の一貫性を確保するために(これは異なるトークナイザーで変わる可能性がある)、本稿では全てのQiD計算においてLlama-3 8B (Dubey et al., 2024) トークナイザーによって生成されたトークン数を使用している。