JaLMS
最新の AI 研究を日本語で解読

Densing Law of LLMs

Chaojun Xiao1, Jie Cai2, Weilin Zhao1, Guoyang Zeng2, Biyuan Lin2, Jie Zhou2
Xu Han1, Zhiyuan Liu1,2, Maosong Sun1
1Tsinghua University  2ModelBest Inc.
[email protected]
{han-xu,liuzy,sms}@tsinghua.edu.cn
Abstract

大規模言語モデル(LLM)は人工知能における画期的な成果として登場し、モデルサイズの増大に伴いその性能は向上する。 しかしながら、このスケーリングは、特に資源制約のある環境でLLMを展開する際に、訓練と推論の効率性に大きな課題をもたらし、スケーリングの傾向は持続不可能になりつつある。 本稿では、「容量密度」の概念を新たな指標として導入し、異なるスケールにおけるLLMの品質を評価するとともに、有効性と効率性の両面からLLMの傾向を記述する。 対象となるLLMの容量密度を計算するために、我々はまず一連の参照モデルを導入し、これらの参照モデルのパラメータサイズに基づいてダウンストリームの性能を予測するスケーリング則を開発する。次に、対象LLMの実効パラメータサイズを、同等の性能を達成するために参照モデルが必要とするパラメータサイズとして定義し、容量密度を対象LLMの実効パラメータサイズと実際のパラメータサイズの比率として形式化する。 容量密度は、モデルの有効性と効率性の両方を評価するための統一的な枠組みを提供する。我々の最近のオープンソースベースLLMに関するさらなる分析により、LLMの容量密度が時間とともに指数関数的に成長するという経験則(密度化則)が明らかになった。より具体的には、広く使用されているいくつかのベンチマークを評価に用いると、LLMの容量密度は約3ヶ月ごとに2倍になる。 この法則は、将来のLLM開発を導く新たな視点を提供し、最小の計算オーバーヘッドで最適な結果を達成するために容量密度を改善することの重要性を強調している。

Highlights

1 Introduction

近年、大規模言語モデル(LLM)は人工知能の分野で大きな注目を集め、様々なタスクにおいて顕著な改善を示している (Bommasani et al., 2021; Qiu et al., 2020; Han et al., 2021; Touvron et al., 2023a; OpenAI, 2023)。LLMのスケーリング則はさらに、モデルのパラメータと学習データが増加するにつれてモデルの性能が向上し続けることを明らかにしている (Kaplan et al., 2020; Henighan et al., 2020; Hoffmann et al., 2022)。この発見により、GPT-3 175B (Brown et al., 2020)、PaLM 540B (Chowdhery et al., 2023)、Llama-3.1-405B (Dubey et al., 2024) など、数千億のパラメータを持つLLMが開発され、より広範な応用分野で卓越した能力を示している。

さらに、LLMの進歩に伴い、推論効率の向上がますます緊急の課題となっている: 1) LLMがより多くのシナリオに展開されるにつれ、推論コストが学習コストを上回り、実用的な応用における主要なボトルネックとなっている (Sardana et al., 2024; Yun et al., 2024; OpenAI, 2024a)。 2) スマートフォンなどのリソースが制限されたエンドデバイスにLLMを個人アシスタントとして展開する需要が高まっており、モデルのより効率的かつコンパクトな設計が求められている (Gunter et al., 2024; Xue et al., 2024; Hu et al., 2024)。 3) 推論スケーリング則は、複雑な推論タスクにおける性能向上には、推論段階でLLMにより多くのトークンを生成させて「思考」させることが重要であることを示しており (Brown et al., 2024; OpenAI, 2024b; Snell et al., 2024)、効率的な推論への需要をさらに高めている。 これらの課題に対処するため、OpenAIのGPT-4o-mini (OpenAI, 2024a) やAppleのapple intelligence (Gunter et al., 2024) など、推論オーバーヘッドを削減するために数十億のパラメータのみを持つ効率的なLLMの開発に多くの努力が注がれている。

これらの一見矛盾する2つの道筋 - 効果のためにLLMをスケールアップすることと、効率のためにLLMをスケールダウンすること - を考えると、自然に以下の疑問が生じる: 我々は異なるスケールのLLMの品質を定量的に評価できるだろうか?パラメータとデータのスケールに関するスケーリング則のように、LLMの効率性の傾向を反映する法則は存在するだろうか?

この目的のために、我々は容量密度の概念を導入する。これは様々なスケールのLLMの訓練品質を評価し比較するための指標として機能する。 LLMの能力のすべての側面、あるいはその知能レベルを正確に測定することは非常に困難である。本稿では、相対的な容量密度を評価する方法を設計する22説明を容易にするため、本研究では「密度」を「(相対的)容量密度」を指すものとして使用する。。 具体的には、参照モデルを使用し、ダウンストリームタスクでのパフォーマンスとパラメータサイズの間のスケーリング関数を推定する。このスケーリング関数に基づいて、任意のモデルに対して、参照モデルが同等のパフォーマンスを達成するために必要とするパラメータ数である有効パラメータサイズを計算する。参照モデルに対する LLM の密度は、その有効パラメータサイズと実際のパラメータサイズの比として定義される。 モデル密度の概念を導入することで、我々はモデルの品質をより正確に測定し、異なるスケールのモデル間の比較を可能にすることを目指している。この評価方法は、LLM開発の将来の方向性に新たな洞察を提供し、研究者が効果と効率のバランスを最適に取ることを支援する可能性がある。

1.1 Key Findings

LLMの密度を定義した後、我々は近年の29292929の広く使用されているオープンソースの事前学習済みベースモデルを分析した。モデル密度に関する我々の主要な発見は以下の通りである:

Densing Law.
LLMの最大容量密度は時間とともに指数関数的な成長傾向を示す。 ln(ρmax)=At+Blnsubscript𝜌max𝐴𝑡𝐵\text{ln}(\rho_{\text{max}})=A\cdot t+Bln ( italic_ρ start_POSTSUBSCRIPT max end_POSTSUBSCRIPT ) = italic_A ⋅ italic_t + italic_B ここで、ρmaxsubscript𝜌max\rho_{\text{max}}italic_ρ start_POSTSUBSCRIPT max end_POSTSUBSCRIPTは時間t𝑡titalic_tにおけるLLMの最大容量密度である。

我々の5555の広く使用されているベンチマーク、MMLU (Hendrycks et al., 2020)、BBH (Suzgun et al., 2023)、MATH (Hendrycks et al., 2021)、HumanEval (Chen et al., 2021)、およびMBPP (Austin et al., 2021)での評価に基づくと、A0.007𝐴0.007A\approx 0.007italic_A ≈ 0.007であり、これはLLMの最大密度が約3ヶ月ごとに2倍になることを意味する。例えば、2024年2月1日にリリースされたMiniCPM-1-2.4Bは、2023年9月27日にリリースされたMistral-7Bと同等またはそれ以上のパフォーマンスを達成できる。35353535%のパラメータを持つLLMを使用して、4444ヶ月後にほぼ同等のパフォーマンスを得ることができる。 異なる評価ベンチマークを使用すると、モデル密度の推定と成長率にわずかな変動が生じる可能性があることに注意する必要がある。我々は、より正確な密度測定を確保するために、LLMのより包括的な評価ベンチマークを開発することをコミュニティに奨励する。

LLMの密度が指数関数的傾向で継続的に増加しているという結論に基づき、我々は以下の含意をさらに導き出すことができる:

Corollary 1.
推論コストの指数関数的減少:同等のダウンストリームパフォーマンスを持つLLMの推論コストは指数関数的に減少している。

密度化の法則は、実効パラメータサイズと実際のパラメータサイズの比率が約3ヶ月ごとに2倍になることを示している。直感的に言えば、3ヶ月後には、現在の最先端モデルと同等のパフォーマンスを、パラメータ数が半分のモデルで達成できるということである。したがって、同等のダウンストリームパフォーマンスに対する推論コストは指数関数的に減少している。我々は、2023年1月から現在まで、GPT-3.5レベルのモデルの推論コストが266.7倍減少したことを発見した。

Corollary 2.
密度化の法則 ×\times× ムーアの法則:同じ面積のチップ上で実行できるLLMの実効パラメータサイズは指数関数的に増加する。

ムーアの法則 (Moore, 1965) は、同じ面積のチップに集積される回路の数が指数関数的に増加することを述べている。これは計算能力の指数関数的な増加を意味する。密度化の法則は、LLMの密度が3.33.33.33.3ヶ月ごとに2倍になることを示している。これら2つの要因を組み合わせると、同じ価格のチップ上で実行できるLLMの実効パラメータサイズは、LLMの密度とチップの計算能力の両方よりも速く増加すると結論付けることができる。

Corollary 3.
ChatGPTのリリース後に加速した密度成長:ChatGPTのリリースにより、LLMの密度の成長率が50%percent5050\%50 %増加した。

我々はChatGPTのリリース前後のLLMの密度の増加傾向を比較した。結果は、ChatGPTモデルのリリース後、最大密度の成長率が顕著に加速したことを示している。具体的には、ChatGPTのリリース後、LLMの密度の成長率が50%percent5050\%50 %増加した。

Corollary 4.
効率的な圧縮 \neq 密度の改善:既存の枝刈りと蒸留の方法は通常、より高い密度を持つ効率的なLLMにはつながらない。

モデルの推論効率を向上させるために、多くの研究者が枝刈りや蒸留などの一連のモデル圧縮アルゴリズムに努力を注いできた (Ma et al., 2023; Sun et al., 2024; Yang et al., 2024; Xu et al., 2024)。これらのアルゴリズムは、しばしば結果として得られる圧縮モデルのパフォーマンスを向上させると信じられている。しかし、いくつかのモデルとそれらの圧縮版を比較することで、広く使用されている枝刈りと蒸留の方法は通常、元のモデルよりも密度の低い小さなモデルをもたらすことが観察できる。我々は、より小さなモデルの密度を向上させることに重点を置いて、より効果的なモデル圧縮アルゴリズムをさらに探求することをコミュニティに奨励する。

Corollary 5.
密度最適化トレーニングに向けて - グリーンスケーリング法則:LLMの開発は、パフォーマンス中心から密度中心へとシフトすべきである。

密度は有効性と効率性のトレードオフを反映する指標である。したがって、パフォーマンスの向上を追求するためにモデルのパラメータを盲目的に増やすことは、モデルの密度を低下させ、不必要なエネルギー消費をもたらす可能性がある。例えば、Llama-3.1-405B (Dubey et al., 2024) はオープンソースモデルの中で最先端のパフォーマンスを達成しているが、他のモデルの何百倍もの計算リソースを必要とする。結果として、モデル開発者は単にパフォーマンスを最適化することから、密度を最適化することに焦点をシフトする必要がある。このアプローチは、最小の計算コストで最良の結果を達成することを目指し、それによってより持続可能で環境に優しいスケーリング法則を実現する。

本稿では、LLMの新しい評価指標である密度を提案し、これにより有効性の向上と効率性の増加という現在の2つのトレンドに対して新しい統一的な視点を提供することができる。 我々が提案した指標に基づいて、29292929のオープンソースモデルを評価し、密度化の法則と名付けた経験則を発見した:LLMの密度は指数関数的に増加する傾向を示す。この経験的関係に基づいて、我々はいくつかの推論を議論し、観察的証拠を提供する。 この新しい評価の視点を通じて、我々はLLMの将来の開発に貴重な洞察とガイダンスを提供することを望んでいる。

2 Density for Large Language Models

本節では、大規模言語モデル(LLM)の密度を正式に定義する。これは、実効的なパラメータサイズを実際のパラメータサイズで割ることで算出される。以下の節では、まずLLM密度の全体的な枠組みと正式な定義について説明する。その後、スケーリング則を用いて実効的なパラメータサイズを推定する方法を紹介する。

2.1 Overall Framework and Definition

LLM密度の核心は、有効パラメータサイズにあります。これは、与えられたモデルと同等の性能を達成するために必要な参照モデルのパラメータ数を指します。 これを達成するために、我々は参照モデルのパラメータサイズとその性能を関連付ける関数を適合させる必要があります。具体的には、\mathcal{M}caligraphic_Mパラメータを持つ特定のモデルNsubscript𝑁N_{\mathcal{M}}italic_N start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPTについて、下流タスクでの性能スコアがSsubscript𝑆S_{\mathcal{M}}italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPTであると仮定します。このスコアは、下流タスクに応じて、精度、F1スコアなど、様々な指標を用いて計算できます。有効パラメータサイズを計算するために、我々は様々な規模のパラメータと訓練データを持つ一連の参照モデルを訓練します。これらのモデルに基づいて、パラメータサイズと性能の間の関数を適合させます:S=f(N)𝑆𝑓𝑁S=f(N)italic_S = italic_f ( italic_N )。ここで、S𝑆Sitalic_Sは下流の性能を表し、N𝑁Nitalic_Nは参照モデルのパラメータサイズを表します。そして、有効パラメータサイズをN^(S)=f1(S)^𝑁𝑆superscript𝑓1𝑆\hat{N}(S)=f^{-1}(S)over^ start_ARG italic_N end_ARG ( italic_S ) = italic_f start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( italic_S )として計算し、\mathcal{M}caligraphic_Mの密度は以下のように定義されます:

ρ()=N^(S)N=f1(S)N.𝜌^𝑁subscript𝑆subscript𝑁superscript𝑓1subscript𝑆subscript𝑁\rho(\mathcal{M})=\frac{\hat{N}(S_{\mathcal{M}})}{N_{\mathcal{M}}}=\frac{f^{-1% }(S_{\mathcal{M}})}{N_{\mathcal{M}}}.italic_ρ ( caligraphic_M ) = divide start_ARG over^ start_ARG italic_N end_ARG ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) end_ARG start_ARG italic_N start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT end_ARG = divide start_ARG italic_f start_POSTSUPERSCRIPT - 1 end_POSTSUPERSCRIPT ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) end_ARG start_ARG italic_N start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT end_ARG . (1)

スケーリング則は通常、言語モデリング損失とパラメータサイズの関係を適合させるために使用されることに注意することが重要です(Kaplan et al., 2020)。下流タスクの性能を直接予測することは自明ではありません。Llama-3(Dubey et al., 2024)に触発され、我々は2段階の推定アプローチを採用します:(1) 損失推定:最初のステップでは、一連の参照モデルを使用して、パラメータサイズとテストセットでの言語モデリング損失の関係を適合させます。これは=f1(N)subscript𝑓1𝑁\mathcal{L}=f_{1}(N)caligraphic_L = italic_f start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_N )と表現されます。(2) 性能推定:創発能力の存在により(Wei et al., 2022a)、限られた訓練計算リソースを持つ参照モデルを使用してパラメータサイズと性能の関係を正確に推定することは困難です。そのため、我々はオープンソースモデルを組み込んで、テストセットでの損失と性能を計算し、関係s=f2()𝑠subscript𝑓2s=f_{2}(\mathcal{L})italic_s = italic_f start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( caligraphic_L )を適合させます。この2段階の推定プロセスにより、s=f2(f1(N))𝑠subscript𝑓2subscript𝑓1𝑁s=f_{2}(f_{1}(N))italic_s = italic_f start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( italic_f start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( italic_N ) )を導出することができます。以下のセクションでは、f1()subscript𝑓1f_{1}(\cdot)italic_f start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( ⋅ )f2()subscript𝑓2f_{2}(\cdot)italic_f start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ( ⋅ )の適合プロセスについて詳細に説明します。

2.2 Loss Estimation

下流タスクの性能を予測するために、最初のステップは、LLMの事前学習に広く採用されているスケーリング則を用いて、パラメータサイズと言語モデルの損失の間の関数を適合させることである。これまでのスケーリング則は主に、全シーケンスに対する言語モデリング損失に焦点を当てており、これは与えられたコーパスの確率を推定するモデルの能力を反映している。しかし、下流タスクのインスタンスは通常、入力指示と出力回答の両方を含んでおり、我々は主に出力回答の確率に関心がある。したがって、本稿では条件付き損失=log(P(answerinstruction))log𝑃conditionalanswerinstruction\mathcal{L}=-\text{log}(P(\text{answer}\mid\text{instruction}))caligraphic_L = - log ( italic_P ( answer ∣ instruction ) )の適合に焦点を当てる。具体的には、条件付き損失\mathcal{L}caligraphic_LとパラメータサイズN𝑁Nitalic_N、および学習トークン数D𝐷Ditalic_Dの間のべき乗則関数を推定する:

=aNα+bDβ,𝑎superscript𝑁𝛼𝑏superscript𝐷𝛽\mathcal{L}=aN^{-\alpha}+bD^{-\beta},caligraphic_L = italic_a italic_N start_POSTSUPERSCRIPT - italic_α end_POSTSUPERSCRIPT + italic_b italic_D start_POSTSUPERSCRIPT - italic_β end_POSTSUPERSCRIPT , (2)

ここで、a𝑎aitalic_aα𝛼\alphaitalic_αb𝑏bitalic_b、およびβ𝛽\betaitalic_βは適合させる必要のあるパラメータである。

スケーリング則に関する以前の研究(Kaplan et al., 2020)では、通常、損失は検証コーパス上で指定される必要があり、このコーパス内のすべてのトークンにわたる平均損失が計算される。本稿では、我々の目標は下流タスクにおけるモデルの性能を適合させることであり、これらのタスクではモデルが入力指示に基づいて回答を出力することが要求される。したがって、我々は下流タスクにおける条件付き損失を直接計算する。つまり、タスクの入力が与えられた際にモデルが回答を生成する際に発生する損失を計算する。 (1) 多肢選択問題の場合、正解選択肢の内容のみに基づいて損失を計算すると、不正解選択肢の内容を無視することになるため、不正確な推定につながる可能性がある。さらに、最終的な選択肢ラベルのみで損失を計算すると、単一トークンの損失も不安定になる。したがって、我々は問題とその複数の選択肢を入力として連結し、出力は入力問題の分析と最終的な回答ラベルとする。 (2) 数学的問題などの複雑な問題の大部分では、最終的な回答を提供する前に一連の推論ステップを生成することがモデルに要求されることが多い。これらのタスクでは、損失を計算する際に、推論ステップと正解の両方を出力として含めてモデルの損失を計算する。ほとんどのデータセットが各インスタンスの推論ステップを提供していないことに注意することが重要である。これら2種類のタスクの両方において、我々はGPT-4(OpenAI, 2023)を使用してすべてのテストインスタンスの推論ステップを生成する。 これらのアプローチにより、異なるタスクの特定の要件とフォーマットを考慮に入れることで、モデルの性能をより適切に推定することができる。

2.3 Performance Estimation

第二段階では、テストセットの損失に基づいて下流タスクの性能を予測する必要がある。損失推定段階では、限られた訓練計算量で訓練されたスケーリング則モデルは通常、下流タスクで意味のあるスコアを達成できず、ほとんどのスケーリング則モデルはランダム推測のレベルでしか性能を発揮しない。したがって、これらのモデルのみで下流の性能を予測することは不可能である。 この問題に対処するため、我々は関数フィッティングのために十分に訓練されたオープンソースモデルを組み込み、テストセットでの損失と性能を計算する。 ほとんどの下流タスクの性能が有界であることを考慮し、我々はフィッティングにシグモイド関数を使用する。シグモイド関数は自然にすべての入力値を0から1の範囲にマッピングする。さらに、損失が特に大きい場合、モデルの性能はランダム推測に近似し、損失が特に小さい場合、モデルの性能は上限に近づくはずである。この特性は、曲線の両極端で非常に平坦なシグモイド関数の特性と一致する。具体的には、我々は以下の関数を用いて下流の性能を推定する:

S=c1+eγ(l)+d,𝑆𝑐1superscript𝑒𝛾𝑙𝑑S=\frac{c}{1+e^{-\gamma(\mathcal{L}-l)}}+d,italic_S = divide start_ARG italic_c end_ARG start_ARG 1 + italic_e start_POSTSUPERSCRIPT - italic_γ ( caligraphic_L - italic_l ) end_POSTSUPERSCRIPT end_ARG + italic_d , (3)

ここで、c𝑐citalic_cγ𝛾\gammaitalic_γl𝑙litalic_l、およびd𝑑ditalic_dは推定する必要があるパラメータである。

表1: 損失推定のために訓練された小規模モデルの詳細なハイパーパラメータ。
Name # Para BS nlayersubscript𝑛𝑙𝑎𝑦𝑒𝑟n_{layer}italic_n start_POSTSUBSCRIPT italic_l italic_a italic_y italic_e italic_r end_POSTSUBSCRIPT d𝑑ditalic_d dffnsubscript𝑑𝑓𝑓𝑛d_{ffn}italic_d start_POSTSUBSCRIPT italic_f italic_f italic_n end_POSTSUBSCRIPT dheadsubscript𝑑𝑒𝑎𝑑d_{head}italic_d start_POSTSUBSCRIPT italic_h italic_e italic_a italic_d end_POSTSUBSCRIPT nheadsubscript𝑛𝑒𝑎𝑑n_{head}italic_n start_POSTSUBSCRIPT italic_h italic_e italic_a italic_d end_POSTSUBSCRIPT nkvsubscript𝑛𝑘𝑣n_{kv}italic_n start_POSTSUBSCRIPT italic_k italic_v end_POSTSUBSCRIPT
0.005B 5,247,232 32 8 256 640 64 4 1
0.03B 31,470,080 32 12 512 1,280 64 8 2
0.1B 106,196,736 64 18 768 1,920 64 12 3
0.2B 245,416,960 128 24 1,024 2,560 64 16 2
0.4B 476,852,480 256 30 1,280 3,200 64 20 2
0.8B 828,225,024 512 36 1,536 3,840 64 24 3

2.4 Density

2および3をフィッティングした後、モデル\mathcal{M}caligraphic_Mの性能Ssubscript𝑆S_{\mathcal{M}}italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPTが与えられた場合、これらの式の逆関数を利用して実効的なパラメータサイズを推論することができる。式2において、損失\mathcal{L}caligraphic_Lがパラメータ数N𝑁Nitalic_Nと学習データサイズD𝐷Ditalic_Dの両方の二変数関数であることに注意することが重要である。したがって、実効的なパラメータサイズを計算する際には、特定の学習データサイズD𝐷Ditalic_Dを指定する必要がある。ここでは、実効的なパラメータサイズを計算するために、デフォルトでD=D0=1T𝐷subscript𝐷01𝑇D=D_{0}=1Titalic_D = italic_D start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT = 1 italic_Tトークンを使用する。そうすると、実効的なパラメータサイズは、D0subscript𝐷0D_{0}italic_D start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPTトークンで学習された参照モデルが同等の性能を達成するために必要なパラメータサイズとして説明できる。具体的には、実効的なパラメータサイズを以下のように計算できる:

^(S)=l1γln(cSd1);N^(S)=(^(S)bD0βa)1α.formulae-sequence^subscript𝑆𝑙1𝛾𝑙𝑛𝑐subscript𝑆𝑑1^𝑁subscript𝑆superscript^subscript𝑆𝑏superscriptsubscript𝐷0𝛽𝑎1𝛼\hat{\mathcal{L}}(S_{\mathcal{M}})=l-\frac{1}{\gamma}ln\left(\frac{c}{S_{% \mathcal{M}}-d}-1\right);\quad\hat{N}(S_{\mathcal{M}})=\left(\frac{\hat{% \mathcal{L}}(S_{\mathcal{M}})-bD_{0}^{-\beta}}{a}\right)^{-\frac{1}{\alpha}}.over^ start_ARG caligraphic_L end_ARG ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) = italic_l - divide start_ARG 1 end_ARG start_ARG italic_γ end_ARG italic_l italic_n ( divide start_ARG italic_c end_ARG start_ARG italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT - italic_d end_ARG - 1 ) ; over^ start_ARG italic_N end_ARG ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) = ( divide start_ARG over^ start_ARG caligraphic_L end_ARG ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) - italic_b italic_D start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT - italic_β end_POSTSUPERSCRIPT end_ARG start_ARG italic_a end_ARG ) start_POSTSUPERSCRIPT - divide start_ARG 1 end_ARG start_ARG italic_α end_ARG end_POSTSUPERSCRIPT . (4)

これで、下流タスクの性能と実効的なパラメータサイズの関係を確立した。与えられたモデル\mathcal{M}caligraphic_Mの密度はρ()=N^(S)N𝜌^𝑁subscript𝑆subscript𝑁\rho(\mathcal{M})=\frac{\hat{N}(S_{\mathcal{M}})}{N_{\mathcal{M}}}italic_ρ ( caligraphic_M ) = divide start_ARG over^ start_ARG italic_N end_ARG ( italic_S start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT ) end_ARG start_ARG italic_N start_POSTSUBSCRIPT caligraphic_M end_POSTSUBSCRIPT end_ARGである。直感的に言えば、あるモデルが同じ規模のパラメータでより良い性能を達成できる場合、そのモデルの密度はより高いということになる。したがって、将来的には、デプロイメントデバイスの限られた計算リソースを考慮し、単にモデルのパラメータ規模を増やして性能を向上させるのではなく、モデルの密度を改善することに大きな努力を払うべきである。

Refer to caption
(a) 損失推定
Refer to caption
(b) 性能推定
図2: 損失推定と性能推定の結果。ここで、線はフィッティングされた曲線を示す。(a)のX軸は事前学習の計算量を表し、Compute=6NDCompute6𝑁𝐷\text{Compute}=6NDCompute = 6 italic_N italic_Dで近似される。(b)の三角形は予測用のより大きなモデルを示す。

3 Density Evolution

3.1 Evaluation Settings

データセット 本稿では、評価のために以下の広く使用されているデータセットを採用する:英語の知識集約型タスクにはMMLU (Hendrycks et al., 2020)、難解な論理的推論タスクにはBBH (Suzgun et al., 2023)、数学的推論タスクにはMATH (Hendrycks et al., 2021)、そしてコーディングタスクにはHumanEval (Chen et al., 2021)とMBPP (Austin et al., 2021)を使用する。評価にはオープンソースツール (OpenCompass, 2023; Liu et al., 2024)を適用する。ここでは、すべてのモデルを少数ショットの文脈内学習方式で評価し、これらのモデルは与えられたデモンストレーションとテストインスタンスの入力に基づいて最終的な回答ラベルを生成することが求められる。広く使用されている設定に従い、MMLU、BBH、MATH、HumanEval、MBPPはそれぞれ5555ショット、3333ショット、4444ショット、00ショット、3333ショットの設定で評価される。さらに、BBH、MATH、MBPPについては、思考の連鎖プロンプティング技術 (Wei et al., 2022b)を採用する。

損失推定モデル 損失推定ステップでは、異なるパラメータスケールと学習データを持つ一連のモデルを実行する必要がある。これらのモデルは、さらなる密度計算のための参照モデルとして使用される。本研究では、広く使用されているエッジサイズモデルであるMiniCPM-3-4B (Hu et al., 2024)の学習コーパスを採用し、小規模モデルを学習させる。モデルアーキテクチャについては、グループ化されたクエリアテンション (Ainslie et al., 2023)、SiLUを活性化関数とするゲート付きフィードフォワード層を使用する。我々は、Warmup-Stable-Decay学習率スケジューラを用いてモデルを学習させる。スケーリング曲線を推定するために、{10,15,20,30,40,60}×N101520304060𝑁\{10,15,20,30,40,60\}\times N{ 10 , 15 , 20 , 30 , 40 , 60 } × italic_Nトークンでモデルを学習させる。ここで、N𝑁Nitalic_Nはパラメータサイズを指す。小規模スケーリングモデルのハイパーパラメータを表1に示す。

性能推定モデル 性能推定ステップでは、損失-性能曲線を適合させるために、追加の十分に学習されたモデルを導入する。具体的には、一連のよく学習されたMiniCPM-3モデルとその中間学習チェックポイントを使用する。これらのパラメータスケールは0.50.50.50.5十億から数十億の範囲である。これらのモデルは、我々のスケーリングモデルと同じ語彙を使用しているが、パラメータサイズと学習データセットが異なる。

評価対象モデル さらに、時間の経過に伴う密度の変化を示すために、Llama-1 (Touvron et al., 2023a)のリリース以降の広く使用されているLLMを評価対象として選択する。これは、Llama-1以前にリリースされたほとんどのオープンソースモデルが、我々が選択したデータセットで意味のある性能を達成できないためである。具体的には、以下のモデルの密度を評価する:Llamaシリーズのモデル (Touvron et al., 2023a, b; Dubey et al., 2024)、Falcon (Almazrouei et al., 2023)、MPT (Team, 2023)、Phiシリーズのモデル (Gunasekar et al., 2023; Li et al., 2023; Abdin et al., 2024)、Mistral (Jiang et al., 2023)、StableLM (Bellagente et al., 2024)、TinyLlama (Zhang et al., 2024)、そしてMiniCPMシリーズのモデル (Hu et al., 2024)。 密度計算には、各モデルの技術報告書で報告された結果を優先的に使用する。また、指示調整データセットには我々が選択したテストデータと類似した人間によってアノテーションされたデータが含まれている可能性があり、不正確な密度推定につながる可能性があるため、指示調整なしのベースの事前学習モデルの密度のみを評価する。 注目すべきは、多くの事前学習モデルが事前学習段階で教師あり微調整データセットも導入しており、テストセットの汚染問題につながっている点である (Wei et al., 2023; Dominguez-Olmedo et al., 2024)。したがって、不正確な密度推定の問題は解決されるべき課題として残されており、我々は今後の研究課題とする。

特筆すべきは、我々が以下の理由により、さらなる教師あり微調整と選好学習を行わない事前学習済みベースモデルの密度のみを評価することである: (1) 事前学習済みベースモデルはモデル性能の基礎となる。人間のアノテーションの質や調整アルゴリズムの選択など、さらなる調整の影響を考慮することは、ベースモデル自体の能力とは無関係な過剰な交絡因子を導入することになる。 (2) 調整を伴うLLMの性能のスケーリング則は、さらなる探求が必要な未解決の問題である。 現在、推論時の性能を向上させる多数の方法が存在する。例えば、検索拡張生成 (Lewis et al., 2020)や、推論スケーリング則のためのより多くの思考 (OpenAI, 2024b)などがある。ここでは、ベースLLMの評価に基本的なプロンプティング技術のみを考慮する。なぜなら、この技術はこのベースモデルの性能を一貫して向上させることができないためである。また、異なる推論FLOPsに対する密度計算は今後の課題とし、これは推論密度則につながる可能性がある。

3.2 Loss and Performance Estimation Results

2に2段階プロセスの推定結果を示す。結果から、この2段階推定プロセスが3つのダウンストリームタスクにおける異なるサイズのモデルの性能を効果的に適合できることが観察できる。テストインスタンスにおける損失の減少に伴い、性能はシグモイド曲線として顕著に向上し、損失はパラメータ数と学習トークン数とべき乗の関係にある。

我々の推定手法の有効性を評価するため、4444十億未満のパラメータを持つモデルを使用して損失-性能曲線を適合させ、より大きなモデルを予測用に保持した。図2(b)の三角形は、数百億のパラメータを持つ2つのモデルを表している。結果から、損失値に基づいてダウンストリームの性能を効果的に予測できることが観察される。

3.3 Densing Law

損失スケーリング曲線と性能スケーリング曲線を適合させた後、我々はLlama-1 (Touvron et al., 2023a)のリリース以降、広く使用されているオープンソースモデルの密度をさらに測定した。図1に各モデルの密度とそのリリース日を示す。図から以下のことが観察できる: (1) LLMの密度は時間とともに急速に増加している。特に、2023年2月にリリースされたLlama-1の密度は0.10.10.10.1未満であるのに対し、最近リリースされたGemma-2-9BやMiniCPM-3-4Bなどのモデルの密度は3333に達している。この密度の増加は、主に事前学習データの規模の拡大とそのデータの品質向上に起因している。例えば、Llama-1は1.4兆トークンで事前学習されているのに対し、Llama-3は慎重なデータクリーニングを行った15兆トークンを使用している。 (2) より良い性能が必ずしもより高い密度につながるわけではない。Llama-3.1-405Bは、その大規模なパラメータ数により、現在最先端のオープンソースモデルの1つである。しかし、最も高い密度を持つモデルではない。これは、計算資源と事前学習データの規模に制約があるため、通常、極めて大規模なモデルの学習設定を完全に最適化することができず、コスト効率の面で最適ではないためである。

LLMの密度の成長傾向をさらに示すために、我々は図1の包絡線に対して線形フィッティングを行った。具体的には、最大密度の対数値が時間とともに線形に増加すると仮定した。形式的には、以下の線形関数をフィッティングした:

ln(ρmax)=At+B,lnsubscript𝜌max𝐴𝑡𝐵\text{ln}(\rho_{\text{max}})=A\cdot t+B,ln ( italic_ρ start_POSTSUBSCRIPT max end_POSTSUBSCRIPT ) = italic_A ⋅ italic_t + italic_B , (5)

ここで、t𝑡titalic_tはLlama-1のリリース日からの時間間隔(単位:日)、ρ𝜌\rhoitalic_ρは時間t𝑡titalic_tにおける最大密度値、A,B𝐴𝐵A,Bitalic_A , italic_Bはフィッティングするパラメータである。フィッティングプロセスを通じて、我々はA0.0073𝐴0.0073A\approx 0.0073italic_A ≈ 0.0073を得た。これは、大規模モデルの密度が約ln(2)A95ln2𝐴95\frac{\text{ln}(2)}{A}\approx 95divide start_ARG ln ( 2 ) end_ARG start_ARG italic_A end_ARG ≈ 95日ごとに2倍になることを意味している。ここで、線形回帰関数のR2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT0.9120.9120.9120.912である。

モデル密度の成長傾向は、現在のLLMの発展における重要なパターンを明らかにしている。スケーリング則はパラメータサイズの増加とともにモデルの性能が向上することを示しているが、パラメータ規模の成長は、デプロイメントシナリオで利用可能な限られた計算資源と迅速な応答への要求によって制約されている。その結果、大規模モデルは単にパラメータサイズを大きくする方向には進化していない。代わりに、LLMの開発者たちは、より高いコスト効率を追求し、最小の推論コストで最適な性能を達成することを目指している。この発見は、集積回路チップの開発におけるムーアの法則(Moore, 1965)で発見された原理と一致しており、限られたチップ面積上でのトランジスタ密度の増加を強調している。したがって、我々はモデル密度の成長傾向に関するこの発見を高密度化の法則と名付ける。

3.4 Corollaries of Densing Law

Densing Lawと我々の評価結果に基づき、本節では複数の系について議論し、我々の発見がLLMの発展を促進することを期待する。

推論コストの指数関数的減少 LLMの密度は指数関数的な成長傾向を示し、約3ヶ月ごとに倍増している。ここで密度とは、実効的なパラメータサイズと実際のパラメータサイズの比率として定義される。これは、3ヶ月後には現在のモデルと同等の性能を実際のパラメータサイズの半分で達成できることを意味する。結果として、同じ性能を達成するという条件下で、LLMの実際のパラメータサイズも指数関数的に減少する。この実際のパラメータ数の減少は、推論時の計算コストの低下につながる。したがって、LLMの密度の指数関数的増加は、同じレベルの性能を達成するモデルの推論コストの指数関数的減少に直接結びつく。

Refer to caption
図3: GPT-3.5を上回る性能を持つLLMの価格。線は最も安価なモデルを結んでいる。

LLMの推論コストの減少傾向をより良く示すために、図3にGPT-3.5のリリース以降、それを上回る性能を達成したLLMのAPI価格を示す。図から、LLMの価格が指数関数的に低下していることが観察できる。具体的には、2022年12月にGPT-3.5は100万トークンあたり20ドルだったが、2024年8月にはGemini-1.5-Flashが同じトークン数で0.075ドルとなり、266.7266.7266.7266.7倍の削減となっている。大まかに言えば、LLMの推論コストは約2.6ヶ月ごとに半減している。LLMのAPI価格の指数関数的な低下傾向はAppenzeller (2024)でも観察されている。

さらに、推論コストの低下率がLLMの密度の成長率よりも速いことが観察できる。これは、推論コストが実際のパラメータサイズだけでなく、推論インフラストラクチャにも大きく依存するためである。近年、LLMの推論システムは研究者から大きな注目を集めており、自己注意層のメモリアクセス速度の最適化(Kwon et al., 2023; Dao et al., 2022; Dao, 2023)やフィードフォワードネットワークのスパース計算最適化(Song et al., 2023; Liu et al., 2023)などが含まれる。これらの進歩はLLMの推論コストの削減に大きく貢献している。

Densing LawとMooreの法則の出会い Densing Lawは、時間とともにモデルの密度が指数関数的に増加する傾向を記述し、LLMのアルゴリズムレベルでの改善に焦点を当てている。一方、計算能力が指数関数的に増加するというMooreの法則は、ハードウェア技術の進歩を強調している(Moore, 1965)。これら2つの原理の組み合わせは、高品質なLLMがスマートフォンやPCなどの消費者向けデバイスで低消費電力で効率的に実行できる未来が急速に近づいていることを示唆している。このアルゴリズムの効率性とハードウェア能力の収束は、日常的なデバイスでの高度なAI技術のより身近で広範な使用への道を開いている。

具体的には、最近の観察(Hobbhahn et al., 2023)によると、同じ価格のチップの計算能力は約2.12.12.12.1年ごとに倍増することが分かっている。 Densing Lawは、実効的なパラメータサイズと実際のパラメータサイズの比率が3ヶ月ごとに倍増することを示している。したがって、固定されたチップ価格において、そのチップ上で実行できる最大のLLMの実効的なパラメータサイズは指数関数的に成長する。この成長率は、モデルの密度の成長率とチップ上のトランジスタ密度の成長率の積である。現在の推定に基づくと、これは最大の実効的なパラメータサイズが約88日ごとに倍増することを意味する。この急速な成長は、アルゴリズムの効率性とハードウェア技術の両方の進歩の複合的な影響を強調しており、以前に予想されていたよりもはるかに迅速に、既存のハードウェア上でますます強力なモデルを展開できる未来を示唆している。

Refer to caption
図4: MMLUを使用して評価された密度。2つのトレンドラインはChatGPTのリリース前後のLLMの密度の成長を表している。

ChatGPTのリリース後に加速した密度の成長 2022年、ChatGPTは様々なタスクで大きな性能向上を達成し、そのゼロショット汎化能力は産業界と学術界の両方からLLMの開発を進める重要な努力を促した。ChatGPTのリリース前後のモデル密度成長の傾向の変化を示すために、我々はGPT-3のリリース以降の代表的なLLMの密度を評価した。密度の変化を捉えるためにMMLUベンチマークを使用した。結果は図4に示されている。

図から、ChatGPTのリリース後にモデル密度の増加率が大幅に加速したことが観察できる。ChatGPT以前は、トレンドラインの傾きは約A0.0048𝐴0.0048A\approx 0.0048italic_A ≈ 0.0048であったが、リリース後はA0.0073𝐴0.0073A\approx 0.0073italic_A ≈ 0.0073に増加し、モデル密度の成長率が50%percent5050\%50 %倍速くなったことを示している。この加速された成長には以下の要因が寄与している: (1) 投資の増加:ChatGPTの成功はLLMの潜在能力を強調し、LLM開発への投資の大幅な増加につながった。 (2) より多くの高品質なオープンソースモデル:高品質なオープンソースモデルの増加は、LLMの研究開発の障壁を低下させた。ChatGPTのリリース後、数十億のパラメータしか持たない高品質な小規模LLMが顕著に増加し、その利用可能性により多くの研究者が比較的小規模なGPUクラスターを使用してLLM研究を行うことができるようになった。したがって、我々はコミュニティに最先端のアルゴリズムとモデルをオープンソース化することを奨励する。これは密度の改善に大きく貢献する可能性がある。

効率的な圧縮 \neq 密度の改善 LLMはしばしば高い推論コストによって制約され、消費者向けデバイスで実行することが困難である。この問題に対処するために、多くの開発者がLLMを圧縮するためにプルーニングと蒸留技術を採用している。図5では、いくつかの圧縮されたモデルの密度も示している。例えば、Llama-3.2-3B/1BとLlama-3.1-minitron-4B (Muralidharan et al., 2024)はLlama-3.1-8B (Dubey et al., 2024)のプルーニングと蒸留から派生したものであり、Gemma-2-9B/2BはGemma-2-27B (Team et al., 2024)から蒸留されたものである。

Refer to caption
図5: 圧縮されたモデルとそのより大きな対応モデルの比較。

結果は、Gemma-2-9Bモデルのみが元のモデルよりも高い密度を持ち、他のすべての圧縮されたモデルは元のモデルと比較して低い密度を示している。直感的には、プルーニングはLLMから重要でないニューロンを除去することを含むため、これらのニューロンが他のニューロンよりも少ない知識を保存している可能性があることを示唆している。これは、圧縮されたモデルが直感的により高い密度を達成すべきであることを意味する。しかし、結果は全く逆である。この不一致は、圧縮プロセス中の小さなモデルの不十分な訓練が原因である可能性があり、最適な密度に到達することを妨げている。したがって、我々はコミュニティに対し、将来の取り組みにおいて圧縮されたモデルが適切に訓練されることを確保することでこの課題に取り組むことを奨励する。

密度最適な訓練に向けて - グリーンスケーリング法則 GPT-3 (Brown et al., 2020)のリリースとスケーリング法則 (Kaplan et al., 2020)の導入以来、多くの研究者はモデルの性能を継続的に向上させるために、非常に大きなパラメータサイズを持つ言語モデルの訓練に焦点を当てている。この傾向に導かれ、PaLM-540B (Chowdhery et al., 2023)とGopher-280B (Rae et al., 2021)は様々な自然言語処理タスクで大きな改善を達成している。事前訓練の計算リソースの制約を考慮すると、訓練計算最適なLLMを開発するために事前訓練クラスターの使用を最大化することが重要な焦点となっている (Hoffmann et al., 2022)。さらに、推論計算コストが訓練計算コストを上回る主要な懸念事項となり、ますます大規模な訓練データを使用してより小さなモデルを事前訓練する方向へのシフトが起きている (Hu et al., 2024; Gunter et al., 2024)

Densing Lawの発見を踏まえ、我々は今、密度最適なLLMの事前訓練へのシフトを奨励する。世界中でのLLM開発の継続的な努力により、モデルの密度は急速に増加し、各モデルのライフサイクルが短くなっている。単にLLMの事前訓練コーパスの規模を増加させるだけでは、開発サイクルが長くなり、訓練コストが高くなる可能性がある。しかし、モデルがリリースされてすぐに、3ヶ月後には同等の性能でより低い推論コストを持つ新しいモデルが利用可能になると予想される。この

4 Discussion

正確な能力測定 能力密度は、LLMのパラメータ単位当たりの能力を反映している。しかし、現在の技術では、LLMの絶対的な能力レベルを正確に評価することができず、知能を定量化することは大きな課題となっている。そのため、本稿では、LLMの相対的な密度値を測定する方法を設計した。また、我々は広く使用されているベンチマークを用いてLLMの性能を評価している。しかし、ベンチマークの数が限られていることや、潜在的なデータ汚染の問題により、性能評価にバイアスが生じる可能性がある。したがって、将来的にLLMの能力や知能レベルをより正確に測定する技術が進歩すれば、その密度をより適切に計算することが可能になるであろう。

密度化法則とスケーリング法則の関連性 LLMのスケーリング法則は、LLMの性能とそのパラメータおよびデータサイズの関係を明らかにし、膨大な数のニューロンで構成される複雑なシステムの本質的な特性を反映している。密度化法則は、さらに時間の経過とともにLLMの効率性と有効性が発展する傾向を強調し、人類が高度なAIモデルを追求する中での技術的進歩の傾向を示している。形式的には、十分な訓練データがある条件下で、スケーリング法則はモデルの損失とパラメータサイズの関係を次のように説明している:=ANα𝐴superscript𝑁𝛼\mathcal{L}=AN^{-\alpha}caligraphic_L = italic_A italic_N start_POSTSUPERSCRIPT - italic_α end_POSTSUPERSCRIPT。これは、すべてのTransformerベースのモデルの訓練に適用される。さらに、密度化法則は、LLMの開発者がデータ、アルゴリズム、アーキテクチャの継続的な改善を通じてα𝛼\alphaitalic_αを増加させ、それによって特定のパラメータサイズに対するモデルの損失を減少させることができることを示している。

デンシング則の有効期間 デンシング則は、LLMアルゴリズムの急速な発展を示している。本段落では、以下の問いについて議論する:このモデル密度の指数関数的成長はどれくらいの期間続くのか?。我々は、モデル密度の急速な増加が人材とリソースへの多大な投資によって推進されていると考える。LLMにおける一般知能能力の向上は、様々な産業に大きな利益をもたらす可能性があり、これがさらにモデルの研究開発への投資を促進している。 LLMの大きな可能性を考慮すると、我々はデンシング則がかなりの期間にわたって有効であり続けると考える。しかしながら、LLMがすぐに既存のデータセットで満足のいく性能を達成するため、モデル密度を評価するために使用される評価データセットを継続的に更新することが不可欠である。 人工汎用知能が実現した場合、LLM自体が自律的に科学研究を行い、密度をさらに高める新たな道筋を探索することが可能になるかもしれない。その時点で、LLM密度の成長はさらに加速する可能性があり、モデル自身が革新し、自己の開発プロセスを最適化する能力によって推進されるであろう。

5 Limitations and Future Directions

本節では、我々が提案したLLMの容量密度を評価する手法の制限事項と今後の方向性について論じる。

公平かつ包括的な評価 LLMの容量密度測定は、モデルの性能を評価するために既存のベンチマークに依存している。したがって、ベンチマークの品質が密度測定結果に大きな影響を与える。本稿では、研究者によって広く採用されている様々なLLMを評価するためのベンチマークを使用している。しかし、いくつかの課題が残されている: (1) 包括的な評価:LLMの発展に伴い、LLMの能力は複雑な推論タスクを処理する能力など、大幅に拡大している(OpenAI, 2024b)。そのため、容量密度測定は、進化する能力を反映したより包括的な評価データセットを組み込むことで継続的に更新される必要がある。 (2) 公平な評価:事前学習データの規模拡大と合成データの構築により、一部のLLMがベンチマークに対して過度に最適化され、スコアが過大評価される結果となっている。これに対処するため、我々は新たに構築されたデータセットを使用してモデルの性能を評価し、過学習のリスクを軽減し、正確な密度推定を確保する計画である。

マルチモーダル密度 本稿では、言語モデルの容量密度の測定に焦点を当てている。しかし、マルチモーダルアプリケーションの増加に伴い、大規模マルチモーダルモデルの密度とトレンドを測定することも重要である。将来的には、マルチモーダルモデルの合理的な密度評価方法の設計が重要な研究方向となるであろう。

推論密度化の法則 最近の研究では、より多くの推論計算コストを使用することで、LLMがより深い推論を行い、複雑なタスクにおける性能を効果的に向上させることが強調されている(OpenAI, 2024b)。本稿では、モデルの容量密度を評価するための基準としてパラメータサイズを使用している。 しかし、思考の連鎖推論の重要性が高まり続けるにつれ、密度評価は推論FLOPsに基づいて行われるべきである。具体的には、容量密度を有効な推論FLOPsと実際の推論FLOPsの比率として定式化することができる。このようにして、我々はLLMが最小限の推論ステップで最適な結果を達成することを期待している。

6 Conclusion

効率的なLLMへの最近の傾向を示し、LLMの訓練品質を定量的に測定するために、本稿ではLLMの容量密度を評価する方法を紹介している。2023年以降にリリースされたオープンソースのベースLLMの容量密度を測定することで、我々は経験則を示した:LLMの容量密度は時間とともに指数関数的に増加する。広く使用されているいくつかのLLMベンチマークでの評価結果は、LLMの密度が3ヶ月ごとに2倍になることを示している。これは、3ヶ月以内に、現在の最先端モデルと同等の性能を、パラメータ数が半分のモデルで達成できることを意味する。この発見は、LLMの急速な発展と効率の向上を浮き彫りにしている。 我々は、この法則に基づいていくつかの系を議論し、この法則とその系がLLMコミュニティにモデルの容量密度を継続的に向上させ、最小の計算コストで最適な性能を達成することを奨励することを期待している。

References

  • Abdin et al. (2024) Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219, 2024.
  • Ainslie et al. (2023) Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebron, and Sumit Sanghai. Gqa: Training generalized multi-query transformer models from multi-head checkpoints. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp.  4895–4901, 2023.
  • Almazrouei et al. (2023) Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro Cappelli, Ruxandra Cojocaru, Mérouane Debbah, Étienne Goffinet, Daniel Hesslow, Julien Launay, Quentin Malartic, et al. The falcon series of open language models. arXiv preprint arXiv:2311.16867, 2023.
  • Appenzeller (2024) Guido Appenzeller. Welcome to llmflation – llm inference cost is going down fast. Blog, 2024. URL https://a16z.com/llmflation-llm-inference-cost/.
  • Austin et al. (2021) Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • Bellagente et al. (2024) Marco Bellagente, Jonathan Tow, Dakota Mahan, Duy Phung, Maksym Zhuravinskyi, Reshinth Adithyan, James Baicoianu, Ben Brooks, Nathan Cooper, Ashish Datta, et al. Stable lm 2 1.6 b technical report. arXiv preprint arXiv:2402.17834, 2024.
  • Bommasani et al. (2021) Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, Shyamal Buch, Dallas Card, Rodrigo Castellon, Niladri S. Chatterji, Annie S. Chen, Kathleen Creel, Jared Quincy Davis, Dorottya Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li Fei-Fei, Chelsea Finn, Trevor Gale, Lauren Gillespie, Karan Goel, Noah D. Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, Omar Khattab, Pang Wei Koh, Mark S. Krass, Ranjay Krishna, Rohith Kuditipudi, and et al. On the opportunities and risks of foundation models. CoRR, abs/2108.07258, 2021.
  • Brown et al. (2024) Bradley C. A. Brown, Jordan Juravsky, Ryan Saul Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, and Azalia Mirhoseini. Large language monkeys: Scaling inference compute with repeated sampling. CoRR, abs/2407.21787, 2024. doi: 10.48550/ARXIV.2407.21787. URL https://doi.org/10.48550/arXiv.2407.21787.
  • Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Proceedings of NeurIPS, 2020.
  • Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
  • Chowdhery et al. (2023) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
  • Dao (2023) Tri Dao. Flashattention-2: Faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691, 2023.
  • Dao et al. (2022) Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher Ré. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in Neural Information Processing Systems, 35:16344–16359, 2022.
  • Dominguez-Olmedo et al. (2024) Ricardo Dominguez-Olmedo, Florian E Dorner, and Moritz Hardt. Training on the test task confounds evaluation and emergence. arXiv preprint arXiv:2407.07890, 2024.
  • Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Gunasekar et al. (2023) Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, et al. Textbooks are all you need. arXiv preprint arXiv:2306.11644, 2023.
  • Gunter et al. (2024) Tom Gunter, Zirui Wang, Chong Wang, Ruoming Pang, Andy Narayanan, Aonan Zhang, Bowen Zhang, Chen Chen, Chung-Cheng Chiu, David Qiu, et al. Apple intelligence foundation language models. CoRR, abs/2407.21075, 2024. doi: 10.48550/ARXIV.2407.21075. URL https://doi.org/10.48550/arXiv.2407.21075.
  • Han et al. (2021) Xu Han, Zhengyan Zhang, Ning Ding, Yuxian Gu, Xiao Liu, Yuqi Huo, Jiezhong Qiu, Yuan Yao, Ao Zhang, Liang Zhang, Wentao Han, Minlie Huang, Qin Jin, Yanyan Lan, Yang Liu, Zhiyuan Liu, Zhiwu Lu, Xipeng Qiu, Ruihua Song, Jie Tang, Ji-Rong Wen, Jinhui Yuan, Wayne Xin Zhao, and Jun Zhu. Pre-trained models: Past, present and future. AI Open, 2:225–250, 2021.
  • Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. In International Conference on Learning Representations, 2020.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2), 2021.
  • Henighan et al. (2020) Tom Henighan, Jared Kaplan, Mor Katz, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, and Sam McCandlish. Scaling laws for autoregressive generative modeling. CoRR, abs/2010.14701, 2020. URL https://arxiv.org/abs/2010.14701.
  • Hobbhahn et al. (2023) Marius Hobbhahn, Lennart Heim, and Gökçe Aydos. Trends in machine learning hardware, 2023. URL https://epoch.ai/blog/trends-in-machine-learning-hardware. Accessed: 2024-12-05.
  • Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training compute-optimal large language models. CoRR, abs/2203.15556, 2022. doi: 10.48550/ARXIV.2203.15556. URL https://doi.org/10.48550/arXiv.2203.15556.
  • Hu et al. (2024) Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, et al. Minicpm: Unveiling the potential of small language models with scalable training strategies. CoRR, abs/2404.06395, 2024. doi: 10.48550/ARXIV.2404.06395. URL https://doi.org/10.48550/arXiv.2404.06395.
  • Jiang et al. (2023) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. CoRR, abs/2001.08361, 2020. URL https://arxiv.org/abs/2001.08361.
  • Kwon et al. (2023) Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. Efficient memory management for large language model serving with pagedattention. In Proceedings of the 29th Symposium on Operating Systems Principles, pp.  611–626, 2023.
  • Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
  • Li et al. (2023) Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, and Yin Tat Lee. Textbooks are all you need ii: phi-1.5 technical report. arXiv preprint arXiv:2309.05463, 2023.
  • Liu et al. (2024) Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, and Lingming Zhang. Is your code generated by chatgpt really correct? rigorous evaluation of large language models for code generation. Advances in Neural Information Processing Systems, 36, 2024.
  • Liu et al. (2023) Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, et al. Deja vu: Contextual sparsity for efficient llms at inference time. In International Conference on Machine Learning, pp.  22137–22176. PMLR, 2023.
  • Ma et al. (2023) Xinyin Ma, Gongfan Fang, and Xinchao Wang. Llm-pruner: On the structural pruning of large language models. Advances in neural information processing systems, 36:21702–21720, 2023.
  • Moore (1965) Gordon E Moore. Cramming more components onto integrated circuits. Electronics, 1965.
  • Muralidharan et al. (2024) Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, and Pavlo Molchanov. Compact language models via pruning and knowledge distillation. arXiv preprint arXiv:2407.14679, 2024.
  • OpenAI (2023) OpenAI. GPT-4 technical report. CoRR, abs/2303.08774, 2023.
  • OpenAI (2024a) OpenAI. Learning to reason with llms. Technical Report, 2024a. URL https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/.
  • OpenAI (2024b) OpenAI. Gpt-4o mini: advancing cost-efficient intelligence. Technical Report, 2024b. URL https://openai.com/index/learning-to-reason-with-llms/.
  • OpenCompass (2023) OpenCompass. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass, 2023.
  • Qiu et al. (2020) Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. Pre-trained models for natural language processing: A survey. CoRR, abs/2003.08271, 2020.
  • Rae et al. (2021) Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. arXiv preprint arXiv:2112.11446, 2021.
  • Sardana et al. (2024) Nikhil Sardana, Jacob Portes, Sasha Doubov, and Jonathan Frankle. Beyond chinchilla-optimal: Accounting for inference in language model scaling laws. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. OpenReview.net, 2024. URL https://openreview.net/forum?id=0bmXrtTDUu.
  • Snell et al. (2024) Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. Scaling LLM test-time compute optimally can be more effective than scaling model parameters. CoRR, abs/2408.03314, 2024. doi: 10.48550/ARXIV.2408.03314. URL https://doi.org/10.48550/arXiv.2408.03314.
  • Song et al. (2023) Yixin Song, Zeyu Mi, Haotong Xie, and Haibo Chen. Powerinfer: Fast large language model serving with a consumer-grade gpu. arXiv preprint arXiv:2312.12456, 2023.
  • Sun et al. (2024) Mingjie Sun, Zhuang Liu, Anna Bair, and J Zico Kolter. A simple and effective pruning approach for large language models. In The Twelfth International Conference on Learning Representations, 2024.
  • Suzgun et al. (2023) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc Le, Ed Chi, Denny Zhou, et al. Challenging big-bench tasks and whether chain-of-thought can solve them. In Findings of the Association for Computational Linguistics: ACL 2023, pp.  13003–13051, 2023.
  • Team et al. (2024) Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, et al. Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118, 2024.
  • Team (2023) MosaicML NLP Team. Introducing mpt-30b: Raising the bar for open-source foundation models, 2023. URL www.mosaicml.com/blog/mpt-30b. Accessed: 2023-06-22.
  • Touvron et al. (2023a) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurélien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. CoRR, abs/2302.13971, 2023a.
  • Touvron et al. (2023b) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023b.
  • Wei et al. (2022a) Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. Transactions on Machine Learning Research, 2022a.
  • Wei et al. (2022b) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022b.
  • Wei et al. (2023) Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, et al. Skywork: A more open bilingual foundation model. arXiv preprint arXiv:2310.19341, 2023.
  • Xu et al. (2024) Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li, Can Xu, Dacheng Tao, and Tianyi Zhou. A survey on knowledge distillation of large language models. arXiv preprint arXiv:2402.13116, 2024.
  • Xue et al. (2024) Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, and Haibo Chen. Powerinfer-2: Fast large language model inference on a smartphone. CoRR, abs/2406.06282, 2024. doi: 10.48550/ARXIV.2406.06282. URL https://doi.org/10.48550/arXiv.2406.06282.
  • Yang et al. (2024) Chuanpeng Yang, Yao Zhu, Wang Lu, Yidong Wang, Qian Chen, Chenlong Gao, Bingjie Yan, and Yiqiang Chen. Survey on knowledge distillation for large language models: Methods, evaluation, and application. ACM Transactions on Intelligent Systems and Technology, 2024.
  • Yun et al. (2024) Longfei Yun, Yonghao Zhuang, Yao Fu, Eric P. Xing, and Hao Zhang. Toward inference-optimal mixture-of-expert large language models. CoRR, abs/2404.02852, 2024. doi: 10.48550/ARXIV.2404.02852. URL https://doi.org/10.48550/arXiv.2404.02852.
  • Zhang et al. (2024) Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, and Wei Lu. Tinyllama: An open-source small language model. arXiv preprint arXiv:2401.02385, 2024.