arXiv	https://arxiv.org/abs/2412.13795
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

Mix-LN: Unleashing the Power of Deep Layers by Combining Pre-LN and Post-LN

Pengxiang Li¹, Lu Yin^2,3∗, Shiwei Liu^4,3†

{}^{1}\,

Dalian University of Technology

{}^{2}\,

University of Surrey

{}^{3}\,

Eindhoven University of Technology

{}^{4}\,

University of Oxford Equal contribution. ^†Corresponding to Shiwei Liu, [email protected].

Abstract

大規模言語モデル（LLM）は目覚ましい成功を収めているが、最近の研究によると、その深層の層がしばしば最小限の貢献しかせず、全体的な性能に影響を与えることなく削減できることが明らかになっている。一部の研究者はこれをモデル圧縮の機会と捉えているが、我々はこれを事前層正規化（Pre-LN）の広範な使用に起因する訓練の不足と特定する。我々は、GPTやLLaMaのようなモデルで一般的に使用されているPre-LNが、深層の勾配ノルムを減少させ、その有効性を低下させることを実証する。対照的に、後層正規化（Post-LN）は深層の勾配ノルムをより大きく保持するが、初期層での勾配消失に悩まされる。この問題に対処するため、我々はMix-LNという新しい正規化技術を導入する。これは同一モデル内でPre-LNとPost-LNの長所を組み合わせたものである。Mix-LNは初期層にPost-LNを、深層にPre-LNを適用し、層全体でより均一な勾配を確保する。これにより、ネットワークの浅層と深層の両方がすべて訓練に効果的に寄与することができる。70Mから7Bまでの様々なモデルサイズでの広範な実験により、Mix-LNが一貫してPre-LNとPost-LNの両方を上回り、ネットワーク全体でより均衡のとれた健全な勾配ノルムを促進し、LLMの事前訓練の全体的な品質を向上させることが実証された。さらに、Mix-LNで事前訓練されたモデルが、教師あり微調整（SFT）と人間のフィードバックからの強化学習（RLHF）において、Pre-LNやPost-LNを使用したモデルよりも優れた学習を行うことを示し、高品質な深層の重要性を強調する。現在のLLMにおける深層の非効率性に効果的に対処することで、Mix-LNはそのポテンシャルを引き出し、モデルサイズを増やすことなくモデル容量を向上させる。我々のコードはhttps://github.com/pixeli99/MixLNで入手可能である。

1 Introduction

大規模言語モデル（LLM）は、人間のようなテキストを理解し生成する前例のない能力を示すことで、人工知能の新時代を切り開いた(Brown, 2020; Achiam et al., 2023; Touvron et al., 2023; Dubey et al., 2024)。複数の言語とトピックにまたがる膨大なデータセットで訓練されたLLMは、産業界と学術界全体で進歩を促進し、人間とコンピュータの相互作用を強化し、これまで想像もできなかった方法でイノベーションを育んでいる。

最近の研究では、LLMの深層、特に中間層を超えた層の有効性に関する重要な観察が明らかになっている。これらの深層は、モデルの全体的な能力に顕著な影響を与えることなく、大幅に削減できる(Yin et al., 2023)、あるいは完全に除去できる(Gromov et al., 2024; Men et al., 2024)ことが示されている。さらに、Li et al. (2024)は、ファインチューニング中の性能向上に深層がほとんど寄与しないことを実証し、その重要性に疑問を投げかけている。残念ながら、この発見は研究コミュニティによって大きく見過ごされており、多くの人々はこれを主にモデル圧縮の機会として捉えている(Siddiqui et al., 2024; Zhong et al., 2024; Sreenivas et al., 2024)が、訓練プロセスの潜在的な欠点として認識していない。

本稿では、LLMの深層がより重要性が低いという一般的な考えに異議を唱える。LLMの訓練は非常にリソース集約的であり、しばしば数千のGPUやTPUと、膨大なデータセットに対する数ヶ月の計算を必要とする。例えば、GPT-3の訓練には数百万ドルの計算コストがかかったと報告されている。深層の活用不足は非効率性につながり、モデルの性能向上に利用できるはずのリソースを無駄にしている。理想的には、モデルのすべての層が十分に訓練され、層ごとに特徴の多様性が十分にあり、ネットワークのパラメータの有用性を最大化すべきである(Yang et al., 2023)。このため、この活用不足の根本原因を調査し、深層の潜在能力を最大限に活用する戦略を開発することが極めて重要であり、全体的なアーキテクチャが性能と効率の両面で最適化されることを保証する。

Refer to caption — 図1: (a) Post-LN層; (b) Pre-LN層; (c) Mix-LN層.

我々は、LLMにおけるより深い層の非効率性が主にLayer Normalizationの選択に起因すると仮説を立てている。具体的には、Pre-Layer Normalization (Pre-LN) (Dai, 2019; Baevski & Auli, 2018)はより深い層でより小さな勾配を生成する傾向があり、それによってそれらの有効性を低下させる一方、Post-Layer Normalization (Post-LN) (Ba, 2016)はより深い層でより大きな勾配を生成するが、初期の層で勾配消失を引き起こす。GPT、LLaMA、Mistralなどの最先端のLLMのほとんどがPre-LNを採用しており、これがより深い層が本質的に効果が低いという広く普及した仮定の一因となっている。

この推測を検証するために、我々は以下の2つのカテゴリーのLLMで実験を行い、Pre-LNモデルとPost-LNモデルの異なる深さにおける層の有効性を比較する。

•

オープンウェイトの大規模LLM：我々はPre-LNモデルの代表としてLLaMa2-7B (Touvron et al., 2023)を、Post-LNモデルとしてBERT-large (Devlin, 2018)を選択し、それらの層の質を評価する。我々の発見は、LLaMa2-7Bのより深い層が高い類似性を示し、それらの除去が初期の層と比較して最小限の影響しか与えないことを確認している。対照的に、BERTは前半の層間でより高い類似性を示し、これらはモデルの出力にあまり寄与していない。
•

自社開発の小規模LLM：無関係な交絡変数を制御するために、我々は自ら小規模LLMを訓練する第二の実験セットを実施し、モデル間の唯一の違いがLayer Normalizationの選択であることを確認する。これらの実験でも一貫した傾向が観察され、我々の以前の観察結果を裏付けている。

これらの洞察に基づき、我々はMix-LNと呼ばれる新しい正規化技術を提案する。これはPre-LNとPost-LNを融合させ、ネットワーク全体でより均衡のとれた健全な勾配ノルムを実現するものである。Mix-LNは、浅い層にはPost-LNを、深い層にはPre-LNを適用する。この背景にある理論的根拠は、Post-LNが深い層での勾配の流れを強化し、Pre-LNが浅い層での勾配を安定させることにある。初期層でPost-LNを、後期層でPre-LNを採用することで、Mix-LNは中間層および深層でより健全な勾配ノルムを促進し、ネットワーク全体でより均衡のとれた学習を促進し、最終的にモデルの全体的な性能を向上させる。

70Mから7Bパラメータまでのモデルを対象とした我々の広範な実験により、Mix-LNがPre-LN、Post-LN、およびそれらの変種を一貫して上回ることが実証された。Mix-LNはPost-LNに関連する学習の不安定性を回避するだけでなく、Pre-LNと比較して深層の品質を大幅に改善し、事前学習の性能向上につながる。さらに、Mix-LNで事前学習されたモデルは、教師あり微調整（SFT）および人間のフィードバックによる強化学習（RLHF）において、Pre-LNまたはPost-LNで学習されたモデルよりも優れた学習を示し、大規模言語モデルにおける高品質な深層の重要性を強調している。

2 Hypothesis Evaluation

本節では、LLMにおけるより深い層の非効率性がPre-LNの選択に起因するという我々の仮説を評価する。評価の詳細は以下の通りである。

2.1 Layer Normalization and Its Gradient

図1の(a)と(b)は、それぞれPost-LNとPre-LNのTransformerアーキテクチャを示している。形式的には、 $x$ を入力、 $\mathcal{F}(x)$ をFFN層または多頭注意層、 $\mathrm{LN}(\cdot)$ を層正規化と定義する。Post-LNは残差加算の後に $\mathrm{LN}(\cdot)$ を適用する：

\displaystyle\text{Post-LN}(x)=\mathrm{LN}(x+\mathcal{F}(x)).

(1)

対照的に、Pre-LNは残差加算の前に $\mathrm{LN}(\cdot)$ を適用する：

\displaystyle\text{Pre-LN}(x)=x+\mathcal{F}(\mathrm{LN}(x)).

(2)

我々は式(1)と(2)の導関数を以下のように計算できる：

	$\displaystyle\frac{\partial\text{Post-LN}(x)}{\partial x}$	$\displaystyle=\frac{\partial\mathrm{LN}(x+\mathcal{F}(x))}{\partial(x+\mathcal% {F}(x))}\left(I+\frac{\partial\mathcal{F}(x)}{\partial x}\right),$		(3)
	$\displaystyle\frac{\partial\text{Pre-LN}(x)}{\partial x}$	$\displaystyle=I+\frac{\partial\mathcal{F}(\mathrm{LN}(x))}{\partial\mathrm{LN}% (x)}\frac{\partial\mathrm{LN}(x)}{\partial x}.$		(4)

上記の両方の式には重要な要素、すなわち層正規化のヤコビ行列 $\mathbf{J}_{LN}(x^{\prime})=\frac{\partial\text{LN}(x^{\prime})}{\partial x^{% \prime}}$ が含まれている。ここで $x^{\prime}$ は $\mathrm{LN}(\cdot)$ の入力である。Xiong et al. (2020); Takase et al. (2023)の証明に従い、 $x^{\prime}$ が平均0の正規分布に従うと仮定すると、以下のようになる：

\displaystyle\frac{\partial\mathrm{LN}(x^{\prime})}{\partial x^{\prime}}=\frac% {\sqrt{d}}{\|x^{\prime}\|_{2}}\bigg{(}I-\frac{x^{\prime}x^{\prime\top}}{\|x^{% \prime}\|_{2}^{2}}\bigg{)}

(5)

ここで、 $\sigma_{x^{\prime}}$ は $x^{\prime}$ の標準偏差であり、 $d$ は隠れ次元である。したがって、

\displaystyle\frac{\partial\mathrm{LN}(x^{\prime})}{\partial x^{\prime}}=\frac% {\sqrt{d}}{\sigma_{x^{\prime}}\sqrt{d}}\bigg{(}I-\frac{x^{\prime}x^{\prime\top% }}{\sigma_{x^{\prime}}^{2}d}\bigg{)}=\frac{1}{\sigma_{x^{\prime}}}\bigg{(}I-% \frac{zz^{\top}}{d}\bigg{)}.

(6)

ここで、 $z=(x^{\prime}-\mu_{x^{\prime}})/\sigma_{x^{\prime}}$ は層正規化後に得られる標準正規分布である。LLMsでは $d\gg 1$ であるため、最終的に以下を得る：

\displaystyle\frac{\partial\mathrm{LN}(x^{\prime})}{\partial x^{\prime}}=\frac% {1}{\sigma_{x^{\prime}}}I.

(7)

実際には、訓練中に $\sigma_{x^{\prime}}$ が徐々に1より大きくなることを観察している。これは、LNのヤコビ行列のスペクトルノルムが1未満であることを意味する。式(3)のPost-LNの導関数によると、この縮小係数は複数の層 $L$ にわたって $\prod_{l=1}^{L}\frac{1}{\sigma_{x^{\prime}}^{l}}$ として蓄積され、Post-LN Transformerの初期層で勾配消失を引き起こす。

対照的に、Pre-LNの残差接続の導関数は、式(4)に示すように、 $\mathrm{LN}$ の導関数に関連する項から分離されている。この設計は初期層での勾配消失問題の防止に役立つ。しかし、Pre-LNは残差接続を制約しないため、層の深さが増すにつれて連続するTransformerブロックの出力が蓄積される。結果として、式(4)のPre-LNの導関数は単位行列に近づき、式(4)のPre-LN操作全体が学習に効果的に寄与しなくなることを示している。これは、Pre-LNの深層が初期層と比較してモデルの全体的な学習にあまり寄与しない理由を説明している。

2.2 Empirical Evaluation Setup

方法：我々の評価方法は、Pre-LNを使用するモデルとPost-LNを使用するモデルの2つを比較分析することを含む。各モデルの異なる深さにおける層の有効性を実証的に評価することで、Pre-LNモデルではより深い層の有効性が低下し、Post-LNモデルではより深い層でも品質が維持または向上することが予想される。

LLMモデル：我々の仮説を厳密に評価するため、2つの異なるカテゴリのLLMで実験を行う：(i) オープンウェイトの大規模LLMと (ii) 自社開発の小規模LLM。オープンウェイトカテゴリでは、Pre-LNモデルの代表としてLLaMa2-7B (Touvron et al., 2023)を、Post-LNモデルとしてBERT-large (Devlin, 2018)を選択した。しかし、これらのオープンウェイトモデルは正規化だけでなく、訓練データ、活性化関数、コンテキスト長などの他の要因も異なるため、正規化の影響のみを分離することが複雑になる。これらの交絡変数を制御するため、我々は自ら小規模LLMをゼロから訓練する第二の実験セットを実施した。目的は、モデル間の唯一の違いが層正規化の選択であることを確実にすることである。具体的には、Lialin et al. (2023b); Zhao et al. (2024)に従い、C4データセットでPre-LNまたはPost-LNを使用してLLaMa-130Mモデルを訓練し、RMSNorm (Zhang & Sennrich, 2019)とSwiGLU活性化 (Shazeer, 2020)を使用した。訓練設定の詳細については付録Aを参照されたい。

評価指標：我々の仮説を検証する上での重要な課題は、個々の層の有効性を捉える堅牢な指標を定義し選択することにある。本研究では、(i) 角度距離と (ii) 性能低下という2つの指標を採用し、各層の役割と貢献を意味のある形で評価する。さらに、異なる層正規化がグラデーントフローに与える影響を示すため、各層の勾配ノルムも報告する。

(i) 角度距離 $d(x^{\ell},x^{\ell+n})$ はGromov et al. (2024)で使用され、中立的な事前訓練データセットにおける層 $\ell$ への入力と層 $\ell+n$ への入力の間の角度距離を測定する。形式的には、 $x_{T}^{\ell}$ を層 $\ell$ への入力、 $x_{T}^{\ell+n}$ を層 $\ell+n$ への入力とすると、層 $\ell$ とその後続の $n^{th}$ 層、つまり $\ell+n$ の間の単一トークン $T$ に対する角度距離は以下のように与えられる：

d(x^{\ell},x^{\ell+n})=\frac{1}{\pi}\arccos\left(\frac{x^{\ell}_{T}\cdot x^{% \ell+n}_{T}}{\left|\!\left|x^{\ell}_{T}\right|\!\right|\left|\!\left|x^{\ell+n% }_{T}\right|\!\right|}\right)\,

(8)

ここで $|\!|\cdot|\!|$ は $L^{2}$ ノルムを表し、係数 $1/\pi$ は $d(x^{\ell},x^{\ell+n})$ を[0, 1]の範囲にスケーリングする。ランダム性の影響を排除するため、本稿で報告される角度距離はC4データセットから256Kトークンにわたって平均化されている。 $d(x^{\ell},x^{\ell+n})$ の値が小さいほど距離が短く、2つのベクトルがより類似していることを意味する。隣接する層との表現が極めて類似している層は容易に除去でき、したがってその重みはあまり効果的ではない。理想的には、ネットワークのパラメータを最も効果的に利用するために、表現は層から層へと大きく変化すべきである(Yang et al., 2023; Gromov et al., 2024)。

(ii) 性能低下 $\Delta P^{(\ell)}$ は、層 $\ell$ を剪定する前後のLLMの性能の差を指す。これは、その層の除去によって引き起こされる性能劣化を定量化する。形式的には、以下のように定義できる：

\Delta P^{(\ell)}=P_{\text{pruned}}^{(\ell)}-P_{\text{original}}

(9)

ここで $P_{\text{original}}$ は剪定なしのモデルの性能、 $P_{\text{pruned}}^{(\ell)}$ は層 $\ell$ を剪定した後のモデルの性能である。 $\Delta P^{(\ell)}$ の値が小さいほど、その層を除去してもモデルの出力にほとんど変化がないことを示し、その層の重要性が低いことを示唆する。具体的には、LLaMA2-7Bについては、一般的に使用されるMMLU (Hendrycks et al., 2020)を評価タスクとして選択した。BERT-largeについては、SQuAD v1.1 (Rajpurkar, 2016)を評価タスクとして選択した。我々の自社開発LLMの限られた容量を考慮し、性能低下の評価にはMMULの代わりに教師あり微調整後のARC-e (Clark et al., 2018)を選択した。

2.3 Evaluation Results

2.3.1 Open-Weight Large-Scale LLMs

図2-(a, c)はBERT-Largeのメトリック値を示している。両メトリックは、Post-LNモデルとして、BERT-Largeの初期層が深層と比較して効果が低いことを示している。図2-aに示されているように、BERT-Largeの前半は後半と比べて隣接層との角度距離が小さい（より黄色）傾向がある。特に、層3、4、9、10、11は後続の層との類似性が非常に高い。図2-cでは、初期層を除去した場合のSQuADにおける性能低下は、深層を除去した場合の影響と比べて著しく小さい。興味深いことに、層2と3を除去すると性能がわずかに向上することさえある。

対照的に、図2-(b, d)はLLaMa2-7Bのメトリック値を示している。Pre-LNモデルとして、図2-bに示されるように、隣接層間の角度距離は上位層から30層目にかけて徐々に減少している（紫から黄色へ）。特に、深層（20層目から30層目）は隣接層との角度距離が極めて小さい。この傾向は図2-dのMMLU性能と一致しており、深層を除去してもほとんど精度の損失がないのに対し、初期層を除去すると精度が大幅に低下する。

要約すると、我々はLLaMa2-7Bにおいて最も効果の低い層が深層に位置しているのに対し、BERT-Largeでは初期層が深層よりも効果が低いことを観察した。オープンウェイトの大規模LLMのカテゴリーからの結果は、我々の仮説を強く支持し、我々の期待と明確に一致していることを示している。

2.3.2 In-house Small-Scale LLMs

図3は、2つのLLaMa-130Mモデルのすべてのメトリック値を示しており、これらのモデル間の唯一の違いは層正規化の選択である。

図3-(a, b)は、それぞれPost-LNとPre-LNの角度距離を示している。他の複合要因の影響がないため、この比較はオープンウェイトの大規模LLMと比べてPost-LNとPre-LNの違いをより明確に示している。Post-LNモデルでは、最も類似した層が初期段階に集中しており、特に最初の3層が非常に低い距離を示している。深さが増すにつれて、層はますます特徴的になる。対照的に、Pre-LN LLaMa-130Mは深さが増すにつれて角度距離が徐々に減少し、深層が非常に類似するようになる。図3-(d, e)は性能低下メトリックでこれをさらに確認している：Post-LNでは初期層（例：0-7層）を除去しても性能損失は最小限であるが、深層（特に9-11層）は元の性能を維持するために重要である。しかし、Pre-LN LLaMa-130Mは逆の傾向を示し、最初の層以降のほとんどの層を除去しても性能損失がほとんどないことから、これらの層がモデルの出力にほとんど寄与していないことを示している。

図3-(c)は、訓練開始時のPost-LNとPre-LNの各層の勾配ノルムを示している。結果は我々の期待と完全に一致している：Post-LNは深層で大きな勾配をもたらすが、初期層では深刻な勾配消失に悩まされる一方、Pre-LNは初期層で健全な勾配流を維持するが、後層で減衰する。

オープンウェイトLLMと我々の社内LLMの両方から得られた一貫した知見により、我々はLLMにおけるPre-LNの広範な使用が深層の非効率性の根本原因であると結論付けることができる。

3 Mix-Layer Normalization (Mix-LN)

Pre-LNの使用が深層の非効率性の根本原因であるという我々の仮説を検証した上で、我々は混合層正規化（Mix-LN）を提案する。これはLLMの中間層と深層の両方の有効性を向上させるために設計された新しい正規化戦略である。

Mix-LNの背後にある主要なアイデアは、Pre-LNとPost-LNの両方の長所を活用することである。Post-LNは深層の有効性を向上させることが示されており、一方でPre-LNは初期層でより効果的である。したがって、我々は初期層にPost-LNを適用し、後期層にPre-LNを適用することを提案する。これにより、中間層と深層が両方の手法の利点を享受できるようにする。

形式的には、 $L$ 層を持つLLMに対して、最初の $\lfloor aL\rfloor$ 層にPost-LNを適用し、残りの $\lceil(1-a)L\rceil$ 層にPre-LNを適用する。ここで、 $a\in[0,1]$ は2つの正規化戦略間の遷移点を制御するハイパーパラメータである。関数 $\lfloor\cdot\rfloor$ と $\lceil\cdot\rceil$ はそれぞれ床関数と天井関数を表す。最終層はPre-LNの使用により依然として小さな勾配を経験する可能性があるが、その悪影響は大幅に軽減される。なぜなら、Pre-LNを採用する層の数が $L$ から $\lceil(1-a)L\rceil$ に減少するからである。この減少により、深層での勾配の流れが改善され、その有効性が向上する。さらに、Mix-LNはPost-LNによって引き起こされる訓練の不安定性の問題を緩和できると我々は期待している(Nguyen & Salazar, 2019; Wang et al., 2024)。これは、第2.1節の分析によると、Post-LNを使用する層の数を減らすことで勾配減衰の蓄積が小さくなるためである。

4 Main Experimental Results

4.1 LLM Pre-training

本節では、Mix-LNの有効性を、Post-LN (Nguyen & Salazar, 2019)、DeepNorm (Wang et al., 2024)、Pre-LN (Dai, 2019)を含む様々な一般的な正規化手法と比較して検証する。Lialin et al. (2023a); Zhao et al. (2024)に従い、我々は71Mから1Bパラメータまでの様々なサイズのLLaMAベースのアーキテクチャを用いて実験を行い、RMSNorm (Shazeer, 2020)とSwiGLU活性化関数 (Zhang & Sennrich, 2019)を組み込んだ。モデルはAdam (Kingma, 2014)を用いて学習され、モデルサイズに基づいて異なる学習率を使用した。具体的には、250Mパラメータ以下のモデルには1e-3の学習率を、1Bパラメータモデルには5e-4の学習率を使用した。同じサイズのすべてのモデルは、正規化を除いて同一の設定で学習された。Mix-LNのハイパーパラメータ $\alpha$ の最適値を決定するために、表5に示すように、LLaMA-250Mを用いて小規模なハイパーパラメータ探索を行った。我々は $\alpha=0.25$ が最良の性能を提供することを発見し、したがって、この値をすべてのモデルサイズに適用した。

表1: 様々なLLaMAサイズにおける各種正規化手法のパープレキシティ（

\downarrow

）比較。

	LLaMA-71M	LLaMA-130M	LLaMA-250M	LLaMA-1B
Training Tokens	1.1B	2.2B	3.9B	5B
Post-LN	35.18	26.95	1409.09	1411.54
DeepNorm	34.87	27.17	22.77	1410.94
Pre-LN	34.77	26.78	21.92	18.65
Mix-LN	33.12	26.07	21.39	18.18

結果は表1に示されている。Post-LNは一般的に最悪の性能を示し、より大きなモデルでは発散さえしており、これはTransformerにおいてPost-LNが学習の不安定性に苦しむことを示す先行研究と一致している (Xiong et al., 2020; Takase et al., 2022)。Post-LNの修正版であるDeepNormは、小規模モデルではPre-LNと同等の性能を達成するが、1Bパラメータモデルでは学習中に発散を経験する。この観察は、早期層の勾配が消失し、適切なモデルの収束を妨げるPost-LNの深刻な学習不安定性を確認するものである。対照的に、Mix-LNは様々なモデルサイズにわたって一貫して最低のパープレキシティを達成している。Mix-LNは、広く普及しているPre-LNと比較して、LLaMA-71MとLLaMA-250Mでそれぞれ1.65および0.53のパープレキシティの顕著な改善を達成している。

上記の結果は、Mix-LNがPost-LNの不安定性を克服するだけでなく、Pre-LNとPost-LNの利点を組み合わせることでモデルの品質を向上させ、大規模LLMに理想的な選択肢となることを明確に示している。

4.2 Scaling Up to 7B Model

Mix-LNの利点が7Bパラメータなどのより大規模なモデルにも適用できるかを評価することは、その利点が大規模モデルにも当てはまるかを示すために不可欠である。この目的のため、我々はZhao et al. (2024)のセットアップに従い、埋め込みサイズ4096と合計32層を特徴とするLLaMa-7Bアーキテクチャを用いて実験を行った。層正規化手法を除くすべてのトレーニング設定は同一に保たれた。計算資源の制約により、我々は13,000ステップのトレーニングのみを完了することができた。我々の経験上、トレーニング初期に一貫した改善を示すモデルは、通常、後期段階でもこれらの利点を維持する傾向がある。トレーニング曲線の比較をFigure 4に示す。ここでは、Mix-LNがLLaMa-7Bの初期トレーニング段階において、Pre-LNを一貫して上回っていることが明らかである。

4.3 Supervised Fine-tuning

表2: 様々な正規化を用いたLLaMaの微調整性能（

\uparrow

）。

Method	MMLU	BoolQ	ARC-e	PIQA	Hellaswag	OBQA	Winogrande	Avg.
LLaMA-250M
Post-LN	22.95	37.83	26.94	52.72	26.17	11.60	49.56	32.54
DeepNorm	23.60	37.86	36.62	61.10	25.69	15.00	49.57	35.63
Pre-LN	24.93	38.35	40.15	63.55	26.34	16.20	49.01	36.93
Mix-LN	26.53	56.12	41.68	66.34	30.16	18.00	50.56	41.34
LLaMA-1B
Post-LN	22.95	37.82	25.08	49.51	25.04	13.80	49.57	31.96
DeepNorm	23.35	37.83	27.06	52.94	26.19	11.80	49.49	32.67
Pre-LN	26.54	62.20	45.70	67.79	30.96	17.40	50.51	43.01
Mix-LN	27.99	61.93	48.11	68.50	31.35	18.80	55.93	44.66

我々は、Mix-LNによって生成される優れた中間層および深層が、教師あり微調整中により効果的に学習できると考えている。この利点は、これらの層がPre-LNで訓練されたものと比較して、より多様で豊かな特徴を捉えていることに起因する。複雑な下流タスクにおいて、幅広い特徴スペクトルにアクセスできることで、モデルはより細やかな予測を行うことができ、汎化性能の向上につながる。

我々の推測を検証するため、Li et al. (2024)に従い、4.1節で得られたモデルをCommonsense170K (Hu et al., 2023)で微調整し、8つの下流タスクで評価を行った。表2に示すように、Mix-LNは評価されたすべてのデータセットにおいて、他の正規化技術を一貫して上回っている。LLaMA-250Mモデルでは、Mix-LNはPre-LNと比較して平均4.26%の大幅な向上を達成し、BoolQでは17.31%の改善を示している。同様の傾向がより大規模なLLaMA-1Bモデルでも観察された。Mix-LNはPre-LNと比較してパープレキシティをわずか0.25しか減少させていないにもかかわらず、教師あり微調整において大幅な性能向上をもたらしている。

4.4 Reinforcement Learning from Human Feedback

表3: LLaMA-1BにおけるPre-LNとMix-LNの最終報酬（

\uparrow

）のRLHF比較。

Method	Model	Final Reward
Pre-LN	LLaMA-1B	0.75
Mix-LN	LLaMA-1B	1.32

一貫して、Mix-LNの利点はRLHFにもシームレスに転用できる。Adam-mini (Zhang et al., 2024)に従い、我々はInstructGPT (Ouyang et al., 2022)からRLHFワークフローを実装し、4.1節で得られた1Bモデルをultrafeedbackデータセットで訓練し、選好報酬を最適化した。表3は、Mix-LNがPre-LNに対して顕著な報酬の向上（高いほど良い）を達成していることを示している。すなわち、1.32対0.75である。

4.5 Evaluation with Vision Transformers

表4: ViTモデルにおけるPre-LNとMix-LNの精度（

\uparrow

）比較。

Model	ViT-Tiny	ViT-Small
Pre-LN	67.30	75.99
Mix-LN	67.34	76.40

非言語モデルにおけるMix-LNの評価のため、我々はViTモデルのPre-LNを $\alpha=0.25$ のMix-LNに置き換えた。更新されたモデルをLiu et al. (2022a)に従い、ConvNeXt (Liu et al., 2022b)の設定を用いてImageNet-1Kで120エポック訓練した。結果は、Mix-LNの利点が非言語モデルにも一般化されることを明確に示している。表4の結果は、Mix-LNの利点が非言語タスクにも及ぶことを示しており、小規模なモデル（ViT-Tiny）と比較して大規模なモデル（ViT-Small）でより顕著な性能向上が見られる。

5 Analysis and More Evaluations

表5: 様々なPost-LN比率

\alpha

におけるLLaMA-1Bのパープレキシティ。

	Pre-LN	Mix-LN					Post-LN
Post-LN ratios $\alpha$	0	16.7%	25.0%	33.0%	41.7%	50.0%	100%
Perplexity	18.65	18.34	18.18	18.41	18.55	18.86	1434

Mix-LNに適切なPost-LN比率 $\alpha$ はどれか？ Mix-LNにはハイパーパラメータ $\alpha$ があり、これがPost-LNを適用する層の比率を制御している。具体的には、 $\alpha=0$ はすべての層にPre-LNが適用されることを意味し、 $\alpha=1$ は純粋なPost-LNに相当する。最適なPost-LN比率を決定するために、我々はC4データセットを用いてLLaMA-1Bで[0, 16.7%, 25.0%, 33.0%, 41.7%, 50.0%, 100%]の値について探索を行った。結果は表5に示されている。正規化がPre-LNからMix-LNに移行するにつれて、モデルは徐々に低いパープレキシティを達成し、 $\alpha=0.25$ で最高の性能に達する。この点を超えると性能は低下し始めるが、ほとんどの層がPost-LNを適用する点まではなお純粋なPre-LNを上回っており、その後性能が大幅に低下する。これらの結果に基づき、我々はすべてのモデルサイズで $\alpha=0.25$ を選択したが、各モデルに対して最適な $\alpha$ を探索することで、Mix-LNの性能をさらに向上させる可能性があると考えている。

Mix-LNは層間の表現の多様性を促進する。我々が主張したように、我々のハイブリッドアプローチは、ネットワーク全体を通じてより均衡の取れた勾配の流れを促進する。これを検証するために、図5にLLaMA-130MのPre-LN、Post-LN、およびMix-LNの角度距離を報告する。ブロックサイズ $n$ が与えられた場合、各行で最小の距離を持つ層が最も薄い黄色で強調表示される。特筆すべきは、Mix-LNが最後の2層を除いて、Pre-LNと比較して層全体でより大きな距離（より濃い色）を一貫して示していることである。これは、Mix-LNがPre-LNよりも層間でより多様な表現を生成していることを示している。対照的に、Post-LNの最小距離は初期層に集中しており、Post-LNが深層での表現の多様性を制限する傾向があるという概念を裏付けている。

Mix-LNはすべての層でより健全な勾配ノルムを強化する。我々は図6(a)で初期化時の異なるLNの勾配ノルムを比較する。これは、Mix-LNがすべての層でより一貫した勾配ノルムを維持していることを示している。この均衡により、層全体にわたって勾配ノルムがより均一に分布し、浅い層と深い層の両方を含むネットワークのすべての部分がモデルの訓練に効果的に寄与することが可能となる。

Mix-LNの層剪定による性能低下。 Mix-LNの有効性をさらに評価するために、我々はPre-LNとPost-LNと比較して層間の性能低下（ $\Delta P$ ）を比較する。図6(b)は、Mix-LNがより深い層からより大きな貢献を達成していることを示している。具体的には、Mix-LNモデルのより深い層がPre-LNと比較してより大きな $\Delta P$ を示しており、これらの層がモデルの全体的な性能により効果的に寄与していることを示している。

他の層正規化との比較。さらに、我々はLLaMA-250Mを用いて、Mix-LNと最近提案された正規化手法（Admin (Liu et al., 2020)、Sandwich-LN (Ding et al., 2021)、Group-LN (Wu & He, 2018; Ma et al., 2024)を含む）との比較を行った。結果は、Sandwich-LNとGroup-LNがPre-LNをわずかに上回る性能を示し、Adminはそれより劣ることを示している。しかし、これらの手法はいずれもパープレキシティを23未満に減少させることができず、Mix-LNには及ばなかった。この結果は、他の最近の革新的手法と比較してMix-LNの有効性を浮き彫りにしている。

表6: LLaMA-250Mにおける他の正規化手法との比較。

Model	Pre-LN	Admin	Group-LN	Sandwich-LN	Mix-LN
LLaMA-250M	23.39	24.82	23.10	23.26	22.33

6 Related Work

6.1 Normalization in Language Models

Layer Normalization (LN)は、Ba (2016)によって最初に提案され、現代の言語モデルにおいて活性化を正規化するための事実上の標準となっている。これは隠れ層内のニューロンへの入力の合計から直接正規化統計を推定し、各層への入力分布が訓練全体を通じて安定していることを保証する。元のTransformer (Vaswani, 2017)では、LNは当初残差接続の後に適用されており、この構成はPost-LNとして知られている。しかし、その後の研究 (Baevski & Auli, 2018; Dai, 2019; Nguyen & Salazar, 2019)により、LayerNormを残差接続の前に配置する（Pre-LN）ことで、特に大規模言語モデルにおいてより安定したパフォーマンスが得られることが判明した (Brown, 2020; Touvron et al., 2023; Jiang et al., 2023)。 Xiong et al. (2020)は理論的に、Post-LNが出力層付近でより大きな勾配を生じさせ、不安定性を避けるためにウォームアップが不可欠であることを示した。対照的に、Pre-LNはモデルの深さに応じて勾配をスケールダウンし、初期化時により安定した勾配を確保する。我々の研究はXiong et al. (2020)の研究を基に、Pre-LNが勾配の大きさを減少させることで不安定性を防ぐ一方で、より深い層での小さな勾配が対応する重みの有効性を低下させる可能性があることを強調している。

言語モデルのより深い層の有効性を向上させるために、様々なLNの変種が提案されている。例えば、Wang et al. (2019)は、深いTransformerにおいてPost-LNが勾配消失に苦しむ一方で、Pre-LNがより多くの層の積み重ねを可能にすることを経験的に検証した。その結果、彼らは訓練可能性を向上させるために全ての前の層を接続する動的線形結合層（DLCL）を導入した。同様の技術が他の研究でも採用されている (Bapna et al., 2018; Dou et al., 2018)。Liu et al. (2020)は、Post-LNが残差分岐に強く依存し、しばしば不安定性につながることを明らかにした。これに対処するため、Adaptive Model Initialization (Admin)が導入された。これは追加のパラメータを使用してPost-LNの残差依存性を制御し、訓練を安定化させる。DeepNorm (Wang et al., 2024)は、LNを適用する前に残差接続をアップスケールすることで、深いTransformerの訓練可能性をさらに改善し、モデルの更新を減少させ、より深いアーキテクチャを可能にした。さらに、Ding et al. (2021)は、各Transformerサブレイヤーの入力と出力の両方を正規化するSandwich LayerNormを提案した。Takase et al. (2022)は、Post-LNがより深い層でより大きな勾配ノルムを保持する傾向があり、潜在的により効果的な訓練につながる可能性があることを特定した。初期層での勾配消失の問題に対処するため、彼らは各層の最後のLNを除くすべてのLNをバイパスする残差接続を使用するB2Tという方法を導入した。我々はTakase et al. (2022)からインスピレーションを得て、Pre-LNとPost-LNの両方を組み合わせることで、それぞれの限界に対処している。我々は付録BでScaled InitializationとScaled Embedを研究している。

6.2 Inefficacy of Deep Layers in LLMs

LLMにおける深層の非効率性は、LLMの剪定の有効な指標となる。 Yin et al. (2023)は、LLaMAやMistralなどの著名なLLMの深層レイヤーが、浅層レイヤーよりも積極的に剪定できることを実証した。これは性能の大幅な低下を引き起こすことなく可能である。同様に、Gromov et al. (2024)とMen et al. (2024)はレイヤー剪定をさらに探究し、LLMの深層レイヤーが通常あまり重要でないことを特定した。Lad et al. (2024)は、PythiaやGPT-2などのモデルにおいて、深層レイヤーがレイヤーの削除や入れ替えなどの介入に対して強い耐性を示すことを観察した。我々の研究は、レイヤーの有効性を評価するために角度距離を適用する点でGromov et al. (2024)と類似している。しかし、彼らは深層レイヤーの非効率性を特定しているものの、この現象の説明や解決策を提案していない。

先行研究ではこれらの深層レイヤーの特性をモデル圧縮の機会として捉えることが多いが(Siddiqui et al., 2024; Zhong et al., 2024; Sreenivas et al., 2024)、我々はこの挙動がより深刻な学習の不足を示していると主張する。これは主にPre-LNの広範な使用によるものである。これに対応して、我々はMix-LNを導入する。これは深層レイヤーの有効性を高め、アーキテクチャ全体がより効果的に学習され、ネットワークのパラメータを十分に活用することを保証する新しい手法である。

7 Conclusion

本稿では、LLMにおける深層の非効率性の問題に取り組み、Pre-LNの広範な使用がその根本原因であることを特定した。Pre-LNは深層のグラディエントを減少させ、その有効性を低下させる。一方、Post-LNは深層のグラディエントを保持するが、浅層でのグラディエント消失に悩まされる。この問題を解決するため、我々はMix-LNという、Pre-LNとPost-LNの長所を組み合わせたハイブリッドな正規化技術を導入した。浅層にPost-LNを、深層にPre-LNを適用することで、Mix-LNはネットワーク全体で均衡のとれたグラディエントノルムを実現し、より効果的な学習を可能にする。我々の実験では、Mix-LNが一貫してPre-LNとPost-LNの両方を上回り、モデルサイズを増加させることなく事前学習と微調整のパフォーマンスを向上させることが示された。深層の潜在能力を十分に活用することで、Mix-LNはLLMの全体的な容量と効率性を改善する。

References

Achiam et al. (2023) Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
Ba (2016) Jimmy Lei Ba. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.
Baevski & Auli (2018) Alexei Baevski and Michael Auli. Adaptive input representations for neural language modeling. arXiv preprint arXiv:1809.10853, 2018.
Bapna et al. (2018) Ankur Bapna, Mia Xu Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. Training deeper neural machine translation models with transparent attention. arXiv preprint arXiv:1808.07561, 2018.
Brown (2020) Tom B Brown. Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020.
Clark et al. (2018) Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
Dai (2019) Zihang Dai. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.
Devlin (2018) Jacob Devlin. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
Ding et al. (2021) Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, et al. Cogview: Mastering text-to-image generation via transformers. Advances in neural information processing systems, 34:19822–19835, 2021.
Dou et al. (2018) Zi-Yi Dou, Zhaopeng Tu, Xing Wang, Shuming Shi, and Tong Zhang. Exploiting deep representations for neural machine translation. arXiv preprint arXiv:1810.10181, 2018.
Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
Gromov et al. (2024) Andrey Gromov, Kushal Tirumala, Hassan Shapourian, Paolo Glorioso, and Daniel A Roberts. The unreasonable ineffectiveness of the deeper layers. arXiv preprint arXiv:2403.17887, 2024.
Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
Hu et al. (2023) Zhiqiang Hu, Lei Wang, Yihuai Lan, Wanyu Xu, Ee-Peng Lim, Lidong Bing, Xing Xu, Soujanya Poria, and Roy Ka-Wei Lee. Llm-adapters: An adapter family for parameter-efficient fine-tuning of large language models. arXiv preprint arXiv:2304.01933, 2023.
Jiang et al. (2023) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
Kingma (2014) Diederik P Kingma. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
Lad et al. (2024) Vedang Lad, Wes Gurnee, and Max Tegmark. The remarkable robustness of llms: Stages of inference? arXiv preprint arXiv:2406.19384, 2024.
Li et al. (2024) Pengxiang Li, Lu Yin, Xiaowei Gao, and Shiwei Liu. Owlore: Outlier-weighed layerwise sampled low-rank projection for memory-efficient llm fine-tuning. arXiv preprint arXiv:2405.18380, 2024.
Lialin et al. (2023a) Vladislav Lialin, Sherin Muckatira, Namrata Shivagunde, and Anna Rumshisky. Relora: High-rank training through low-rank updates. In The Twelfth International Conference on Learning Representations, 2023a.
Lialin et al. (2023b) Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, and Anna Rumshisky. Stack more layers differently: High-rank training through low-rank updates. arXiv preprint arXiv:2307.05695, 2023b.
Liu et al. (2020) Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, and Jiawei Han. Understanding the difficulty of training transformers. arXiv preprint arXiv:2004.08249, 2020.
Liu et al. (2022a) Shiwei Liu, Tianlong Chen, Xiaohan Chen, Xuxi Chen, Qiao Xiao, Boqian Wu, Tommi Kärkkäinen, Mykola Pechenizkiy, Decebal Mocanu, and Zhangyang Wang. More convnets in the 2020s: Scaling up kernels beyond 51x51 using sparsity. arXiv preprint arXiv:2207.03620, 2022a.
Liu et al. (2022b) Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 11976–11986, 2022b.
Ma et al. (2024) Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, and Chunting Zhou. Megalodon: Efficient llm pretraining and inference with unlimited context length. arXiv preprint arXiv:2404.08801, 2024.
Men et al. (2024) Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, and Weipeng Chen. Shortgpt: Layers in large language models are more redundant than you expect. arXiv preprint arXiv:2403.03853, 2024.
Nguyen & Salazar (2019) Toan Q Nguyen and Julian Salazar. Transformers without tears: Improving the normalization of self-attention. arXiv preprint arXiv:1910.05895, 2019.
Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
Rajpurkar (2016) P Rajpurkar. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.
Scao et al. (2022) Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas Bekman, M Saiful Bari, Stella Biderman, Hady Elsahar, Niklas Muennighoff, Jason Phang, et al. What language model to train if you have one million gpu hours? arXiv preprint arXiv:2210.15424, 2022.
Shazeer (2020) Noam Shazeer. Glu variants improve transformer. arXiv preprint arXiv:2002.05202, 2020.
Siddiqui et al. (2024) Shoaib Ahmed Siddiqui, Xin Dong, Greg Heinrich, Thomas Breuel, Jan Kautz, David Krueger, and Pavlo Molchanov. A deeper look at depth pruning of llms. arXiv preprint arXiv:2407.16286, 2024.
Sreenivas et al. (2024) Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, and Pavlo Molchanov. Llm pruning and distillation in practice: The minitron approach. arXiv preprint arXiv:2408.11796, 2024.
Takase et al. (2022) Sho Takase, Shun Kiyono, Sosuke Kobayashi, and Jun Suzuki. B2t connection: Serving stability and performance in deep transformers. arXiv preprint arXiv:2206.00330, 2022.
Takase et al. (2023) Sho Takase, Shun Kiyono, Sosuke Kobayashi, and Jun Suzuki. Spike no more: Stabilizing the pre-training of large language models. arXiv preprint arXiv:2312.16903, 2023.
Touvron et al. (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Vaswani (2017) A Vaswani. Attention is all you need. Advances in Neural Information Processing Systems, 2017.
Wang et al. (2024) Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, and Furu Wei. Deepnet: Scaling transformers to 1,000 layers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.
Wang et al. (2019) Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F Wong, and Lidia S Chao. Learning deep transformer models for machine translation. arXiv preprint arXiv:1906.01787, 2019.
Wu & He (2018) Yuxin Wu and Kaiming He. Group normalization. In Proceedings of the European conference on computer vision (ECCV), pp. 3–19, 2018.
Xiong et al. (2020) Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. On layer normalization in the transformer architecture. In International Conference on Machine Learning, pp. 10524–10533. PMLR, 2020.
Yang et al. (2023) Greg Yang, Dingli Yu, Chen Zhu, and Soufiane Hayou. Tensor programs vi: Feature learning in infinite-depth neural networks. arXiv preprint arXiv:2310.02244, 2023.
Yin et al. (2023) Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia, Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, and Shiwei Liu. Outlier weighed layerwise sparsity (owl): A missing secret sauce for pruning llms to high sparsity. arXiv preprint arXiv:2310.05175, 2023.
Zhang & Sennrich (2019) Biao Zhang and Rico Sennrich. Root mean square layer normalization. Advances in Neural Information Processing Systems, 32, 2019.
Zhang et al. (2024) Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, and Ruoyu Sun. Adam-mini: Use fewer learning rates to gain more. arXiv preprint arXiv:2406.16793, 2024.
Zhao et al. (2024) Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, and Yuandong Tian. Galore: Memory-efficient llm training by gradient low-rank projection. arXiv preprint arXiv:2403.03507, 2024.
Zhong et al. (2024) Longguang Zhong, Fanqi Wan, Ruijun Chen, Xiaojun Quan, and Liangzhi Li. Blockpruner: Fine-grained pruning for large language models. arXiv preprint arXiv:2406.10594, 2024.

Appendix A Details of Experiments

A.1 Architecture and Hyperparameters

我々は、(Lialin et al., 2023a; Zhao et al., 2024)に従い、事前学習に使用したLLaMaアーキテクチャとハイパーパラメータの詳細を紹介する。表7は、モデルサイズ全体にわたるLLaMaモデルの主要なハイパーパラメータを示している。我々は全てのモデルに対して最大シーケンス長256を使用し、バッチサイズは512、1バッチあたりの総トークン数は131Kである。学習率のウォームアップは、学習ステップの最初の10%に適用される。我々はAdamを使用してモデルを学習し、学習率スケジュールにはコサインアニーリングを適用し、初期学習率の10%まで減衰させる。250Mパラメータ以下のモデルには1e-3の学習率を使用し、1Bパラメータモデルには5e-4の学習率を使用する。

表7: 本稿で使用したLLaMaモデルのハイパーパラメータ。

Params	Hidden	Intermediate	Heads	Layers	Steps	Data amount	LR	Batch Size	$\alpha$
71M	512	1368	8	12	10K	$1.1\mathrm{~{}B}$	$1\times 10^{-3}$	512	25%
130M	768	2048	12	12	20K	$2.2\mathrm{~{}B}$	$1\times 10^{-3}$	512	25%
250M	1024	2560	16	24	40K	$3.9\mathrm{~{}B}$	$1\times 10^{-3}$	512	25%
$1\mathrm{~{}B}$	2048	5461	32	24	100K	$5.0\mathrm{~{}B}$	$5\times 10^{-4}$	512	25%
$7\mathrm{~{}B}$	4096	11008	32	32	13K	$1.7\mathrm{~{}B}$	$5\times 10^{-4}$	512	6.25%

Appendix B Compatibility to Advanced

本節では、Mix-LNが訓練を安定化するために提案された高度な技術とうまく統合できるかどうかも評価する。具体的には、一般的に使用されているスケーリング初期化 (Nguyen & Salazar, 2019; Scao et al., 2022) を評価する。これは $W_{2}$ と $W_{0}$ をより小さな正規分布 $\mathcal{N}(0,\sqrt{2/5d}/\sqrt{2N})$ で初期化して訓練のダイナミクスを安定化する手法である。また、スケーリング埋め込み (Takase et al., 2023) は埋め込みをスケールアップしてLayerNormの勾配を安定化する。我々は、Pre-LNとMix-LNの両方がスケーリング初期化と効果的に機能することを観察した。しかし、この設定の上にスケーリング埋め込みを組み込むと、性能の低下につながる。

表8: スケーリング初期化とスケーリング埋め込みを用いた様々な正規化手法によるLLaMA-130Mのパープレキシティ。

Normalization	Scaled Initialization	Scaled Embed	Perplexity
Pre-LN			32.18
Mix-LN			29.95
Pre-LN	✓		30.63
Mix-LN	✓		29.77
Pre-LN	✓	✓	31.28
Mix-LN	✓	✓	31.19