JaLMS
最新の AI 研究を日本語で解読

When Precision Meets Position:
BFloat16 Breaks Down RoPE in Long-Context Training

Haonan Wang 𝑵𝑵{}^{\hskip 0.70004pt{\color[rgb]{1,.5,0}\bm{N}}}start_FLOATSUPERSCRIPT bold_italic_N end_FLOATSUPERSCRIPT  Qian Liu𝑺𝑺{}^{\hskip 0.70004pt{\color[rgb]{0,0,1}\bm{S}}}start_FLOATSUPERSCRIPT bold_italic_S end_FLOATSUPERSCRIPT  Chao Du𝑺𝑺{}^{\hskip 0.70004pt{\color[rgb]{0,0,1}\bm{S}}}start_FLOATSUPERSCRIPT bold_italic_S end_FLOATSUPERSCRIPT  Tongyao Zhu𝑵𝑵{}^{\hskip 0.70004pt{\color[rgb]{1,.5,0}\bm{N}}}start_FLOATSUPERSCRIPT bold_italic_N end_FLOATSUPERSCRIPT  Cunxiao Du𝑺𝑺{}^{\hskip 0.70004pt{\color[rgb]{0,0,1}\bm{S}}}start_FLOATSUPERSCRIPT bold_italic_S end_FLOATSUPERSCRIPT
 Kenji KawaguchiN𝑁{}^{\hskip 0.70004pt{\color[rgb]{1,.5,0}\bm{N}}}start_FLOATSUPERSCRIPT bold_italic_N end_FLOATSUPERSCRIPT Tianyu PangSabsent𝑆{}^{{\dagger}\hskip 0.70004pt{\color[rgb]{0,0,1}\bm{S}}}start_FLOATSUPERSCRIPT † bold_italic_S end_FLOATSUPERSCRIPT
N
National University of Singapore SSea AI Lab, Singapore
{haonan.wang,tongyao.zhu}@u.nus.edu;  [email protected];
{tianyupang, liuqian, duchao, ducx}@sea.com
Work done during Haonan Wang’s internship at Sea AI Lab. Correspondence to Tianyu Pang.
Abstract

文脈窓サイズを拡張することで、大規模言語モデル(LLM)はより長いシーケンスを処理し、より複雑なタスクを扱うことができるようになる。回転位置埋め込み(RoPE)は、長文脈学習に有益な相対的位置エンコーディング特性により、事実上の標準となっている。 しかし、我々はRoPEをBFloat16形式で使用すると数値的な問題が生じることを観察した。これにより、特に長文脈のシナリオにおいて、意図された相対的位置エンコーディングから逸脱してしまう。 この問題はBFloat16の限られた精度に起因し、文脈の長さが増すにつれて蓄積される。最初のトークンがこの問題に大きく寄与している。 この問題に対処するため、我々はAnchorAttentionを開発した。これはプラグアンドプレイ型の注意機構で、BFloat16によって引き起こされる数値的問題を軽減し、長文脈能力を向上させ、学習を高速化する。 AnchorAttentionは、最初のトークンを一貫した位置IDを持つ共有アンカーとして扱い、学習文脈内のすべての文書から可視化することで、不要な注意計算を削減し、意味的一貫性を維持し、計算効率を向上させる。3種類のLLMでの実験により、AnchorAttentionが長文脈性能を大幅に向上させ、標準的な全注意機構と比較して学習時間を50%以上削減しつつ、一般的なタスクにおける元のLLMの能力を維持することが実証された。111AnchorContext: AnchorAttentionの実装は、FlashAttention2とFlexAttentionを使用して、いくつかの一般的なモデルをサポートしている。コードは https://github.com/haonan3/AnchorContextにある。

1 Introduction

近年、自然言語処理の分野では、ますます長いシーケンスを扱うモデルが急増している(Yang et al., 2024; Dubey et al., 2024; Jiang et al., 2023; Team et al., 2024)。128Kトークンのコンテキストウィンドウにより、大規模言語モデル(LLM)は、複数文書に対する質問応答(Wang et al., 2024a)、リポジトリレベルのコード理解(Jimenez et al., 2024)、長距離依存関係を捉えることによる多数ショット学習(Agarwal et al., 2024)などの複雑なタスクを処理することが可能となり、より一貫性のある文脈的に適切な出力につながっている(Mazumder & Liu, 2022)

LLMにおいて長文脈処理能力を実現するために、Rotary Position Embedding (RoPE) (Su et al., 2021)が位置エンコーディングの主要な基盤として台頭してきた(Liu et al., 2023b)。 RoPEの成功は、しばしばその三角関数的(回転)特性と相対的位置エンコーディングに起因するとされ、これらによりモデルは分布外(OOD)の回転角を回避することができる(Wang et al., 2024b; Chen et al., 2023a; Peng et al., 2023; LocalLLaMA, 2023; Men et al., 2024)。 理論的には、回転周波数を調整することで、拡張された文脈位置ID(OOD)を十分に訓練された分布内の範囲にマッピングすることができる。 さらに、その相対的位置エンコーディング特性により、元の馴染みのある範囲に補間することで、モデルは拡張された文脈内の入力トークンの相対的位置を認識できる。 結果として、長文脈に対する比較的少量の追加訓練により、LLMは拡張された文脈長に適応することが可能となる(Zhao et al., 2024a; Fu et al., 2024; Zhang, 2023)。 しかしながら、文脈長に伴うGPUメモリ消費量の二次関数的増加により、最小限の長文脈訓練は依然として課題となっている(Xiong et al., 2023)。この問題に対処するため、事前訓練時に一般的に使用されるBrain Floating Point (BFloat16)(Wang & Kanwar, 2019)が長文脈訓練フェーズでも採用されている。その使用はモデルの精度に大きな影響を与えることなくメモリ帯域幅の要求を減少させ(Kalamkar et al., 2019)、長文脈モデルの計算要求を管理するのに理想的である。

Refer to caption
図1: 異なる設定下での位置シフトが注意計算に与える影響。 : 注意の差異 D𝐷Ditalic_D (式 4) を位置シフト Δ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT の変化に対してプロットしたもの(Δ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16 は固定)。BFloat16 下の事前学習モデル(青線)は、Float32(黄線)およびランダム初期化(緑線)と比較して顕著な差異を示している。これは、BFloat16 下で RoPE の相対位置エンコーディング特性が破綻していること、および事前学習がこの効果を増幅させていることを示している。 中央: Δ1=0subscriptΔ10\Delta_{1}=0roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0Δ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16 の間のトークンごとの注意の差異。最初のトークンが観察された注意の差異の大部分を占めていることを強調している。: シーケンス長が増加するにつれての最初のトークンの注意ロジットの差異(式 5)。シーケンスが長くなるにつれて差異が増大することを示している。

BFloat16 の計算上の利点にもかかわらず、我々は重大な問題を特定した:BFloat16 と組み合わせると、特に長文脈シナリオにおいて、RoPE の相対位置エンコーディング特性が破綻する。1 に示されているように、この破綻は BFloat16 の限られた精度によって生じる。学習ウィンドウサイズが増加するにつれて数値誤差が蓄積し、問題を悪化させ、より大きな差異をもたらす。対照的に、Float32 を使用した場合、この劣化は消失し、RoPE の相対位置エンコーディングの完全性が維持される。我々の経験的観察により、この破綻が長文脈学習に対する RoPE の利点を減少させることが確認された。

長文脈学習を改善するため、我々はRoPEの相対位置エンコーディングの崩壊の原因を調査し、注意ウィンドウの最初のトークンがこの偏差に最も大きく寄与していることを観察した。 しかし、現在の手法はこの問題に特化して設計されていなかった。完全な注意機構では、各トークンが前のすべてのトークンに注意を向けるため、ウィンドウサイズが大きくなるにつれて偏差が累積する。 標準的な文書内注意(図2、左)は文書間マスキングを使用し、大きなウィンドウを複数の小さなウィンドウに効果的に変換する。この手法は各小ウィンドウに複数の最初のトークンを導入し、これらの最初のトークンに異なる位置IDを割り当てることで、モデルの位置理解に不整合を引き起こす。

Refer to caption
図2: 異なる注意パラダイムの図解。左:標準的な文書内注意。中央:我々の改良版、文書ごとの位置IDリセットを伴う文書内注意。右:共有アンカートークン𝒜𝒜\mathscr{A}script_Aを組み込んだAnchorAttention

経験的に、我々は単にウィンドウ間で一貫性を維持するために位置IDをリセットすること(我々のバージョンの文書内注意、図2中央)が長文脈性能を向上させることを発見した。これは、位置IDの不一致が重要な問題であることを確認している。しかし、位置IDのリセットは新たな問題を引き起こす:モデルは、最大文脈長に達するかそれを超えるデータ配列を処理する場合にのみ、回転角の全スペクトルを学習できる。 これらの洞察に基づき、我々はAnchorAttentionを提案する—長文脈能力を向上させながら訓練プロセスを加速する汎用的でプラグアンドプレイな注意手法である。 図2(右)に示されているように、AnchorAttentionの核心的革新は、最初のトークンを共有アンカーとして扱うことにある:我々は常にそれに最初の位置IDを割り当て、文脈ウィンドウ内のすべての文書に対して可視化しつつ、異なる文書からのトークンが互いに不可視であることを確保する。 すべての文書が同じ初期トークンを共有することで、AnchorAttentionは不一致を排除しながら、文脈長より短い配列から完全な回転範囲を学習することをモデルに可能にする。 さらに、AnchorAttentionは、すべての前のトークンに注意を払わないことで注意計算に関与するトークンの数を減らし、数値誤差の累積を防ぐのに役立つ。 実験結果は、AnchorAttentionでの訓練が、8Kから128Kまでの長さにわたる長文脈ベンチマークRULERにおいて、完全注意、標準的な文書内注意、および我々の改良された文書内注意を一貫して上回ることを示している。LongBenchのような実世界の長文脈ベンチマークでは、AnchorAttentionは文脈内学習性能を向上させながら、MMLUやHellaSwagなどの一般的なタスクにおけるモデルの能力を大きく保持している。

要約すると、本稿の主な貢献は以下の通りである:

  • 我々は、RoPEの相対的特性がBFloat16精度下で損なわれることを発見した。

  • 我々は、理論上保持されるべきRoPEの相対的特性の偏差に、シーケンスの最初のトークンが寄与していることを特定した。さらに、この偏差は訓練ウィンドウサイズが大きくなるほど顕著になることが分かった。

  • これらの観察に基づき、我々は長文脈の継続的訓練のための実用的なアプローチであるAnchorAttentionを導入した。これにより、モデルの長文脈処理能力が向上し、標準的なアテンション訓練に必要な訓練時間の50%未満で済み、既存の訓練パイプラインに最小限の修正で適用できる。

2 Discrepancies in RoPE’s Relative Positional Encoding

2.1 Background of Rotary Position Embedding (RoPE)

現代の大規模言語モデル(LLM)は主にTransformer (Vaswani et al., 2017) アーキテクチャに基づいている。その中核的な構成要素の一つがアテンション機構であり、以下のように表現できる:

Aijsubscript𝐴𝑖𝑗\displaystyle\vspace{-5pt}A_{ij}italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT =𝐪i𝐤jabsentsuperscriptsubscript𝐪𝑖topsubscript𝐤𝑗\displaystyle=\mathbf{q}_{i}^{\top}\mathbf{k}_{j}= bold_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT bold_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT (1)
ATTN(𝐗)ATTN𝐗\displaystyle\text{ATTN}(\mathbf{X})ATTN ( bold_X ) =softmax(𝐀+𝐌),absentsoftmax𝐀superscript𝐌\displaystyle=\text{softmax}(\mathbf{A}+\mathbf{M}^{-\infty}),= softmax ( bold_A + bold_M start_POSTSUPERSCRIPT - ∞ end_POSTSUPERSCRIPT ) , (2)

ここで、アテンションロジット行列 𝐀(Aij)RT×T𝐀subscript𝐴𝑖𝑗superscript𝑅𝑇𝑇\mathbf{A}\triangleq(A_{ij})\in R^{T\times T}bold_A ≜ ( italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT ) ∈ italic_R start_POSTSUPERSCRIPT italic_T × italic_T end_POSTSUPERSCRIPT、クエリとキーベクトルはそれぞれ 𝐪i=𝐖Q𝐱isubscript𝐪𝑖subscript𝐖𝑄subscript𝐱𝑖\mathbf{q}_{i}=\mathbf{W}_{Q}\mathbf{x}_{i}bold_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = bold_W start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT𝐤j=𝐖K𝐱jsubscript𝐤𝑗subscript𝐖𝐾subscript𝐱𝑗\mathbf{k}_{j}=\mathbf{W}_{K}\mathbf{x}_{j}bold_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = bold_W start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT bold_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT の形をとる。𝐖Q,𝐖Kd×dsubscript𝐖𝑄subscript𝐖𝐾superscript𝑑𝑑\mathbf{W}_{Q},\mathbf{W}_{K}\in\mathbb{R}^{d\times d}bold_W start_POSTSUBSCRIPT italic_Q end_POSTSUBSCRIPT , bold_W start_POSTSUBSCRIPT italic_K end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_d × italic_d end_POSTSUPERSCRIPT はクエリとキー行列であり、𝐱isubscript𝐱𝑖\mathbf{x}_{i}bold_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT𝐱jsubscript𝐱𝑗\mathbf{x}_{j}bold_x start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT𝐗RT×d𝐗superscript𝑅𝑇𝑑\mathbf{X}\in R^{T\times d}bold_X ∈ italic_R start_POSTSUPERSCRIPT italic_T × italic_d end_POSTSUPERSCRIPTi𝑖iitalic_i 番目と j𝑗jitalic_j 番目のトークンを表す。アテンションスコア行列 ATTN(𝐗)ATTN𝐗\text{ATTN}(\mathbf{X})ATTN ( bold_X ) において、我々は表記を簡略化するために Vaswani et al. (2017) によって導入されたスケーリング係数 1/d1𝑑1/\sqrt{d}1 / square-root start_ARG italic_d end_ARG を無視している。 因果マスク 𝐌T×Tsuperscript𝐌superscript𝑇𝑇\mathbf{M}^{-\infty}\in\mathbb{R}^{T\times T}bold_M start_POSTSUPERSCRIPT - ∞ end_POSTSUPERSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT italic_T × italic_T end_POSTSUPERSCRIPT(ここで 𝐌ij=subscriptsuperscript𝐌𝑖𝑗\mathbf{M}^{-\infty}_{ij}=-\inftybold_M start_POSTSUPERSCRIPT - ∞ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT = - ∞i<j𝑖𝑗i<jitalic_i < italic_j の場合、そうでなければ 𝐌ij=0subscriptsuperscript𝐌𝑖𝑗0\mathbf{M}^{-\infty}_{ij}=0bold_M start_POSTSUPERSCRIPT - ∞ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT = 0)は、𝐀𝐀\mathbf{A}bold_A の上三角部分を負の無限大に設定することで、各トークンが将来のトークンにアテンションを向けることを防いでいる。

Transformerアーキテクチャは、順序情報をエンコードするために位置埋め込みを使用しており、これは順序データを処理する上で不可欠である。RoPE (Su et al., 2021) は現在、特にLLMにおいて最も広く採用されているエンコーディングである。 RoPEはクエリとキーに作用し、それらを2次元のチャンクに分割し、各チャンクを異なる周波数で回転させる。これにより、式 1 のアテンションロジットの計算に回転行列を適用し、以下のように表現できる:

Aij=(Ri,θqiApplied before FlashAttention2, Float32)Rj,θkj=qiRji¯,θkj=qiRm¯,θkjComputed within FlashAttention2, BFloat16,subscript𝐴𝑖𝑗superscriptsubscriptsubscript𝑅𝑖𝜃subscript𝑞𝑖Applied before FlashAttention2, Float32topsubscript𝑅𝑗𝜃subscript𝑘𝑗superscriptsubscript𝑞𝑖topsubscript𝑅¯𝑗𝑖𝜃subscript𝑘𝑗superscriptsuperscriptsubscript𝑞𝑖topsubscript𝑅¯𝑚𝜃subscript𝑘𝑗Computed within FlashAttention2, BFloat16\displaystyle A_{ij}=(\underbrace{R_{i,\theta}q_{i}}_{\mathclap{\text{Applied % before FlashAttention2, {\color[rgb]{0.98,0.65,0.0}\definecolor[named]{% pgfstrokecolor}{rgb}{0.98,0.65,0.0}{Float32}}}}})^{\top}\underbrace{R_{j,% \theta}k_{j}}=q_{i}^{\top}R_{\underline{j-i},\theta}k_{j}=\overbrace{q_{i}^{% \top}R_{\underline{m},\theta}k_{j}}^{\mathclap{\text{Computed within % FlashAttention2, {\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{% 0,0,1}{BFloat16}}}}},italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT = ( under⏟ start_ARG italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT end_ARG start_POSTSUBSCRIPT Applied before FlashAttention2, bold_Float32 end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT under⏟ start_ARG italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_ARG = italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT under¯ start_ARG italic_j - italic_i end_ARG , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = over⏞ start_ARG italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT under¯ start_ARG italic_m end_ARG , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_ARG start_POSTSUPERSCRIPT Computed within FlashAttention2, bold_BFloat16 end_POSTSUPERSCRIPT ,

ここで、m=ji𝑚𝑗𝑖m=j-iitalic_m = italic_j - italic_ii𝑖iitalic_ij𝑗jitalic_j相対距離である。回転行列 R𝑅Ritalic_R の詳細は付録 A に記載する。 RoPEは、絶対位置エンコーディングとして実装することで、効率的な相対位置エンコーディングを実現している。これは、キーとクエリベクトル、具体的には Ri,θqisubscript𝑅𝑖𝜃subscript𝑞𝑖R_{i,\theta}q_{i}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTRj,θkjsubscript𝑅𝑗𝜃subscript𝑘𝑗R_{j,\theta}k_{j}italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT に直接回転行列を適用することで、絶対位置エンコーディングの操作を模倣している。 なお、回転行列はFlashAttention2 (Dao, 2024) モジュールの外部でFloat32精度を使用して適用される。しかし、キーとクエリの内積はFlashAttention2モジュール内で行われ、FlashAttention2の要件に従ってBFloat16にキャストされなければならない。 また、回転角の選択は θi=base2i/dsubscript𝜃𝑖𝑏𝑎𝑠superscript𝑒2𝑖𝑑\theta_{i}=base^{-2i/d}italic_θ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = italic_b italic_a italic_s italic_e start_POSTSUPERSCRIPT - 2 italic_i / italic_d end_POSTSUPERSCRIPT を満たし、現在のLLMにおける典型的な base𝑏𝑎𝑠𝑒baseitalic_b italic_a italic_s italic_e の値は10,000である。

2.2 BFloat16 Disrupts RoPE’s Relative Properties, Especially with Long Context

RoPEは理論上、トークン間の相対的な位置距離m=ji𝑚𝑗𝑖m=j-iitalic_m = italic_j - italic_iのみに依存するように設計されている。 重要な含意は、すべての位置インデックスに定数の位置シフトΔΔ\Deltaroman_Δを加えても、注意計算が変化しないはずだということである。形式的には、以下のように表現できる:

A(i+Δ)(j+Δ)subscript𝐴𝑖Δ𝑗Δ\displaystyle A_{(i+\Delta)(j+\Delta)}italic_A start_POSTSUBSCRIPT ( italic_i + roman_Δ ) ( italic_j + roman_Δ ) end_POSTSUBSCRIPT =(Ri+Δ,θqi)(Rj+Δ,θkj)=qiR(j+Δ)(i+Δ),θkj=qiRm,θkj=Aij,absentsuperscriptsubscript𝑅𝑖Δ𝜃subscript𝑞𝑖topsubscript𝑅𝑗Δ𝜃subscript𝑘𝑗superscriptsubscript𝑞𝑖topsubscript𝑅𝑗Δ𝑖Δ𝜃subscript𝑘𝑗superscriptsubscript𝑞𝑖topsubscript𝑅𝑚𝜃subscript𝑘𝑗subscript𝐴𝑖𝑗\displaystyle=\left(R_{i+\Delta,\theta}\,q_{i}\right)^{\top}\left(R_{j+\Delta,% \theta}\,k_{j}\right)=q_{i}^{\top}R_{(j+\Delta)-(i+\Delta),\theta}\,k_{j}=q_{i% }^{\top}R_{m,\theta}\,k_{j}=A_{ij},= ( italic_R start_POSTSUBSCRIPT italic_i + roman_Δ , italic_θ end_POSTSUBSCRIPT italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ( italic_R start_POSTSUBSCRIPT italic_j + roman_Δ , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) = italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT ( italic_j + roman_Δ ) - ( italic_i + roman_Δ ) , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_m , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT = italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT , (3)

ここで、Aijsubscript𝐴𝑖𝑗A_{ij}italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPTは位置i𝑖iitalic_ij𝑗jitalic_jの間の注意ロジットであり、Rm,θsubscript𝑅𝑚𝜃R_{m,\theta}italic_R start_POSTSUBSCRIPT italic_m , italic_θ end_POSTSUBSCRIPTは相対距離m𝑚mitalic_mに対応する回転行列である(導出は付録A参照)。 しかし、重要な疑問は、この相対的性質が実際に成り立つのかということである。

我々は、位置シフトが注意計算に与える影響を経験的に調査する。 分析を明確にするために、注意計算をATTNl,h(𝐗,Δ)superscriptATTN𝑙𝐗Δ\text{ATTN}^{l,h}(\mathbf{X},\Delta)ATTN start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( bold_X , roman_Δ )と再定義する。これは、位置シフトΔΔ\Deltaroman_Δが適用された場合のl𝑙litalic_l番目のトランスフォーマー層のhhitalic_h番目のヘッドによって生成される注意行列を表す。具体的には、元の位置インデックスが[0,1,,L1]01𝐿1[0,1,\dots,L-1][ 0 , 1 , … , italic_L - 1 ]である場合、シフト適用後は[Δ,Δ+1,,Δ+L1]ΔΔ1Δ𝐿1[\Delta,\Delta+1,\dots,\Delta+L-1][ roman_Δ , roman_Δ + 1 , … , roman_Δ + italic_L - 1 ]となる。 我々は、2つの異なる位置シフトΔ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTΔ2subscriptΔ2\Delta_{2}roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTによる注意の差を以下の指標を用いて測定する:

D(𝐗,Δ1,Δ2)=l,htrow𝐧(tcol|ATTNl,h(𝐗,Δ1)ATTNl,h(𝐗,Δ2)|),𝐷𝐗subscriptΔ1subscriptΔ2subscript𝑙subscriptsubscript𝑡rowdirect-product𝐧subscriptsubscript𝑡colsuperscriptATTN𝑙𝐗subscriptΔ1superscriptATTN𝑙𝐗subscriptΔ2\displaystyle D(\mathbf{X},\Delta_{1},\Delta_{2})=\sum_{l,h}\sum_{t_{\text{row% }}}\mathbf{n}\odot\left(\sum_{t_{\text{col}}}\left|\text{ATTN}^{l,h}(\mathbf{X% },\Delta_{1})-\text{ATTN}^{l,h}(\mathbf{X},\Delta_{2})\right|\right),italic_D ( bold_X , roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) = ∑ start_POSTSUBSCRIPT italic_l , italic_h end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT row end_POSTSUBSCRIPT end_POSTSUBSCRIPT bold_n ⊙ ( ∑ start_POSTSUBSCRIPT italic_t start_POSTSUBSCRIPT col end_POSTSUBSCRIPT end_POSTSUBSCRIPT | ATTN start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( bold_X , roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) - ATTN start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( bold_X , roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) | ) , (4)

この指標は、すべての層とヘッドにわたる注意スコアの累積差を測定する。 trowsubscript𝑡rowt_{\text{row}}italic_t start_POSTSUBSCRIPT row end_POSTSUBSCRIPTtcolsubscript𝑡colt_{\text{col}}italic_t start_POSTSUBSCRIPT col end_POSTSUBSCRIPTは注意行列の行と列を反復する。 そして、正規化ベクトル𝐧=[1L,1L1,,1]𝐧1𝐿1𝐿11\mathbf{n}=\left[\frac{1}{L},\frac{1}{L-1},\dots,1\right]bold_n = [ divide start_ARG 1 end_ARG start_ARG italic_L end_ARG , divide start_ARG 1 end_ARG start_ARG italic_L - 1 end_ARG , … , 1 ]が要素ごとに適用される(direct-product\odotで表記)。これは、因果マスキングにより下三角行列の要素数が変化することを考慮するためである。

実験設定。1(左)では、Δ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16を設定し、Δ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTをリスト[0,2,4,6,8,10,12,14,15,17,18,20,22,50,100,200,500,1000,2000]0246810121415171820225010020050010002000[0,2,4,6,8,10,12,14,15,17,18,20,22,50,100,200,500,1000,2000][ 0 , 2 , 4 , 6 , 8 , 10 , 12 , 14 , 15 , 17 , 18 , 20 , 22 , 50 , 100 , 200 , 500 , 1000 , 2000 ]にわたって変化させる。 線はBFloat16精度のLLaMA-2-7Bの事前学習済みパラメータを使用した結果を表す。線は同じ事前学習済みパラメータをFloat32精度に変換した結果を示す。線はBFloat16精度でランダムに初期化されたパラメータ(PyTorchのデフォルトであるkaiming_uniform_で初期化)を使用した結果に対応する。各ケースにおいて、長さT=4096𝑇4096T=4096italic_T = 4096の50のテキストシーケンスにわたって平均をとり、差D𝐷Ditalic_Dを計算する。 なお、可視化を改善するためにΔ1=16subscriptΔ116\Delta_{1}=16roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 16を切り取っている。予想通り、Δ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTΔ2subscriptΔ2\Delta_{2}roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTが等しい場合、差はゼロとなる。より詳細な可視化と議論は付録Bに提供されている。

結果の考察。 我々は、BFloat16精度を使用する場合、位置シフトΔΔ\Deltaroman_Δが事前学習済みのLLaMA-2-7Bの注意計算に影響を与えることを観察した。対照的に、すべての計算をFloat32精度で行う場合、この効果は消失する(青線と緑線の比較)。さらに、事前学習済みパラメータとランダムに初期化されたパラメータを比較すると、どちらもBFloat16精度下で(青線と黄線の比較)、事前学習が不一致を増幅させることがわかった。 これらの発見は、BFloat16精度下では、RoPEが理論的に主張されている相対的位置エンコーディングから(わずかに)逸脱し、モデルが事前学習された後にこの性質が崩壊することを示唆している。

さらに、我々は各個別のトークンに対するΔ1=0subscriptΔ10\Delta_{1}=0roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0Δ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16の間の注意の差の詳細を調査する(つまり、トークンごとの研究のために我々の指標でtrowsubscript𝑡rowt_{\text{row}}italic_t start_POSTSUBSCRIPT row end_POSTSUBSCRIPTにわたる合計を行わない)。これらのトークンごとの差を図1(中央)に可視化する。結果は明確に、最初のトークンが注意の差に最も大きく寄与していることを示している。最初のトークンを除外すると、残りのトークンは相対的位置の性質を保持している。

前の実験では、シーケンス長をT=4,096𝑇4096T=4,096italic_T = 4 , 096に固定した。シーケンス長が注意ロジットの差にどのように影響するかを調査するために、我々の研究を[64,128,256,512,1024,2048,4096,8192]641282565121024204840968192[64,128,256,512,1024,2048,4096,8192][ 64 , 128 , 256 , 512 , 1024 , 2048 , 4096 , 8192 ]のシーケンス長に拡張した。この試行では、異なる長さにわたるソフトマックス操作が最初のトークンの結果を比較不可能にするため、注意スコアではなく注意ロジットを測定した。明確にするために、注意ロジットの差を以下のように定義する:

Dlogit=1Tl,hi=1T|Ai,j=1l,h(Δ1)Ai,j=1l,h(Δ2)|,subscript𝐷logit1𝑇subscript𝑙superscriptsubscript𝑖1𝑇superscriptsubscript𝐴𝑖𝑗1𝑙subscriptΔ1superscriptsubscript𝐴𝑖𝑗1𝑙subscriptΔ2\displaystyle D_{\text{logit}}=\frac{1}{T}\sum_{l,h}\sum_{i=1}^{T}\left|A_{i,j% =1}^{l,h}(\Delta_{1})-A_{i,j=1}^{l,h}(\Delta_{2})\right|,italic_D start_POSTSUBSCRIPT logit end_POSTSUBSCRIPT = divide start_ARG 1 end_ARG start_ARG italic_T end_ARG ∑ start_POSTSUBSCRIPT italic_l , italic_h end_POSTSUBSCRIPT ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT | italic_A start_POSTSUBSCRIPT italic_i , italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) - italic_A start_POSTSUBSCRIPT italic_i , italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT ) | , (5)

ここで、Aijl,h(Δ)superscriptsubscript𝐴𝑖𝑗𝑙ΔA_{ij}^{l,h}(\Delta)italic_A start_POSTSUBSCRIPT italic_i italic_j end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_l , italic_h end_POSTSUPERSCRIPT ( roman_Δ )は位置シフトΔΔ\Deltaroman_Δを持つl𝑙litalic_l番目の層のhhitalic_h番目のヘッドの注意ロジット行列である。 我々はΔ1=0subscriptΔ10\Delta_{1}=0roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0Δ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16を保持し、異なる文脈長を持つ50のシーケンスにわたって平均をとった指標Dlogitsubscript𝐷logitD_{\text{logit}}italic_D start_POSTSUBSCRIPT logit end_POSTSUBSCRIPTを測定する。 図1(右)にこれらの結果をまとめる。シーケンス長が増加するにつれて、最初のトークンの注意ロジットの差も増加することが観察される。これは、より長いシーケンスが最初のトークンの不一致を悪化させることを示している。

セクションの要約: BFloat16精度下では、RoPEの相対的性質が崩壊する。不一致は主に最初のトークンに由来し、これが崩壊に大きく寄与している。さらに、文脈長が増加するにつれて、これらの不一致の影響がより顕著になる。

3 AnchorAttention

前節では、BFloat16精度がRoPEの相対位置エンコーディングを損なうことを示し、その不一致は配列長が長くなるほど顕著になることを実証した。しかしながら、BFloat16は計算効率の面で依然として望ましく、特に長文脈拡張において重要である。このような状況下で最も効果的な戦略は、長文脈データで事前学習を継続することである(Fu et al., 2024; Gao et al., 2024)。ただし、このアプローチは注意機構が配列長に対して二次の計算コストを要するため、課題がある。我々は、より長い配列での増大する誤差を軽減しつつBFloat16の利点を維持するために、AnchorAttentionを提案する。

3.1 Training Long-Context Models with Small Window Sizes

長文脈モデルの学習には通常、長い配列の処理が必要である。しかし、この直接的な方法はBFloat16下での精度誤差を悪化させる。図1(右)が示すように、処理されるトークン数が増加するにつれて、不一致は悪化する。 配列長を短くすることで精度の問題を軽減できるが、短いウィンドウサイズで長文脈モデルを学習することは矛盾しているように思える。 この矛盾を解消するために、我々は文献の技術を再検討し、文書間の注意を遮断する文書内注意(Zhao et al., 2024b)(図2左に示す)が、完全な注意と比較してより短い配列長で長文脈モデルを学習するのに使用できることを発見した。さらに、経験的に、文書内注意はLLaMA-3シリーズのようなオープンソースLLMで成功裏に適用されている。Gao et al. (2024)による最近の研究も、文書境界を越えた注意を遮断することが短文脈と長文脈の両方のパフォーマンスを向上させることを示し、文書内注意の有効性を確認している。

3.2 Does the Discrepancy in RoPE under BFloat16 Impact Long-context Performance?

以前、我々はBFloat16を使用する際のRoPEの相対位置エンコーディングにおいて、注意スコアの差異として現れる偏差を特定した。この観察は次の疑問を提起する:この不一致は長文脈性能に重大な影響を与えるのか?特に、文書内注意が注意スコアの不一致を緩和するように見えることを考慮すると、文書内注意で訓練されたモデルにおいては、BFloat16の影響は長文脈能力に対して無視できるかもしれない。これを調査するために、我々は2種類の位置インデックスを比較する。1つ目は、文書内注意の一般的な実践Zhao et al. (2024b); Gao et al. (2024)に従い、シーケンスの始めから終わりまで連続的に位置IDを割り当てる方法である(図2左)。2つ目は、各文書内で位置インデックスを1にリセットする方法である(図2中央)。 理論的には、両方の位置付け方式は同一の結果をもたらすはずである。 この比較は、相対位置エンコーディングの偏差がさらに長文脈性能に測定可能な差異をもたらすかどうかを評価するために使用される。

実験設定。 我々は、LLaMA-2-7Bアーキテクチャに基づく128Kモデルを、文書内注意を用いてSlimpajamaデータセットで訓練し、広く使用されている長文脈評価ベンチマークRULERで評価する実験を行った。これらの実験では、位置IDのリセットの有無を比較し、位置IDの割り当てがモデルの性能に与える影響を評価することを目的とした。訓練と評価のプロトコルについては、セクション5に譲る。

Refer to caption
図3: 位置IDのリセットは性能を向上させ、RoPEの理論的予測に反する。

結果の考察。 結果は図3に示されている。我々は、位置IDをリセットすることが一貫してモデルの長文脈性能を向上させることを観察した。対照的に、位置IDをリセットしない従来のアプローチ(図2左)は、劣った性能をもたらす。この性能差は、各文書の最初のトークンに異なる位置IDを割り当てることで生じる可能性があり、これがモデルを混乱させる可能性のある不整合を引き起こす。位置IDをリセットすることで、一貫した位置関係(最初の位置IDが最初のトークンにある)を維持する。 なお、この分析はRoPEがBFloat16精度下で何らかの形で絶対位置エンコーディングメカニズムとして機能するという仮説に基づいている。この仮定を厳密に検証し、その意味を完全に理解するためには、さらなる研究が必要である。

3.3 A Shared Anchor Token for Efficient Long-Context Training

位置IDのリセットはモデルのパフォーマンスを向上させますが、重大な欠点も伴います:モデルは、コンテキスト長に達するか超える配列を処理する場合にのみ、回転角の全スペクトルを学習できるのです。この制限により、コンテキストウィンドウサイズを増やすにつれて、全コンテキストウィンドウを埋める十分な長い配列を収集することが、そのような長大なデータの希少性のため現実的でなくなるため、モデルがより長いコンテキスト長のシナリオに一般化する能力が妨げられます。

この課題に対処するため、我々はAnchorAttentionを提案します。これは、長いコンテキストウィンドウ内のすべての文書に可視的な共有共通アンカートークンを導入する注意機構です。さらに、文書間の冗長な注意接続は無視され、モデルが一貫性のある情報に集中できるようになります。AnchorAttentionの図解は図2(右)に示されています。

AnchorAttentionでは、アンカートークン𝒜𝒜\mathscr{A}script_Aがすべての文書の共通の開始点として機能します。この設計は、最初のトークンがRoPEにおける相対位置エンコーディングからの偏差の原因であるという我々の観察に動機づけられています。最初のトークンを除いて、後続のトークンは望ましい相対位置エンコーディングの特性を保持できます。固定位置ID(開始ID)を持つ共有アンカートークンを導入することで、モデルは文書の冒頭と開始位置IDの関係について混乱しなくなります。 具体的には、我々は文頭トークン<bos>をこの共通アンカーとして指定します。<bos>トークンは通常、明示的な意味を持たないため、このトークンに集中するBFloat16による精度誤差は、モデルの全体的なパフォーマンスに最小限の影響しか与えません。

さらに、共有アンカーを使用することで、モデルが文の冒頭と開始位置IDの関係を正しく解釈することを保証するために位置IDをリセットする必要がなくなります。これにより、ウィンドウ長の最初から最後まで連続した位置ID(図2の右に示すノンリセット方式)を使用できます。結果として、各イテレーションで回転角の全スペクトルを学習できます。文書内注意アプローチと比較して、本稿の方法は、全学習ウィンドウ長を埋める豊富な長い配列に大きく依存せずに、全回転スパンを学習できます。これにより、長い配列データの収集とアップサンプリングへの依存が軽減されます。

セクションの要約: 1. BFloat16精度下での注意スコアにおけるRoPEの相対位置エンコーディングの偏差は、モデルの長い配列を効果的に扱う能力にも影響を与える。 2. 文書内注意機構内での位置IDのリセットは、一貫した位置関係を維持することで長文脈のパフォーマンスを向上させる。 3. 少しの工夫で大きな効果:共有アンカートークンの導入は、長文脈学習のためのシンプルかつ強力な解決策を提供する。

4 Long-Context Extension Protocol

本節では、最適化された訓練戦略と堅牢な評価指標に焦点を当て、ベースモデルの選択、長文脈訓練データセット、具体的な訓練設定、およびベンチマークのセットアップについて詳述する。

4.1 Base Model, Dataset and Training Configuration

ベースモデル。 我々の実験では、主にLlaMA-2-7Bモデルをベースモデルとして使用する。提案手法の有効性を異なる事前学習モデルにわたって評価するため、Llama-3-8B (Dubey et al., 2024)Qwen-1.5 (1.8B) (Yang et al., 2024)、およびMistral-7B-v0.3 (Jiang et al., 2023)についても第5.3節で評価する。これらのモデルは、アーキテクチャとベースモデルの事前学習パラダイムの範囲を代表しており、我々のアプローチの一般性をテストすることを可能にする。

データセット。 我々は、長文脈訓練のためにSlimPajamaデータセット(Soboleva et al., 2023)を使用する。これはLLaMAの事前学習データ混合(Touvron et al., 2023)のオープンソースレプリケーションである。このデータセットには、Common Crawl (CC)、C4、GitHub、ArXiv、Books、Wikipedia (Wiki)、StackExchangeなど、多様なテキストソースが含まれている。オリジナルのSlimPajamaに加えて、Fu et al. (2024)のデータ混合手法を適用し、元のデータセットの全体的な分布を維持しながら、各ソース内の長いシーケンスをアップサンプリングする。 このアップサンプリングは、訓練中にモデルをより長文脈シナリオに露出させることを目的としている。

我々の実験では、オリジナルとアップサンプリングされたSlimPajamaデータセットの両方から20億トークンをサンプリングする。64Kおよび128Kトークンのシーケンス長を持つデータセットをそれぞれSlimPajama-64KおよびSlimPajama-128Kと呼ぶ。アップサンプリングされたデータセットはUpSampledMix-128Kと表記する。詳細な統計は付録Cに記載されている。

訓練構成。 我々の訓練ハイパーパラメータは主に(Zhang, 2023)に基づいている。すべてのモデルは8台のNVIDIA A100 GPUで訓練される。学習率を2×1052superscript1052\times 10^{-5}2 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPTに設定し、重み減衰0.1、β1=0.9subscript𝛽10.9\beta_{1}=0.9italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0.9、およびβ2=0.95subscript𝛽20.95\beta_{2}=0.95italic_β start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 0.95のAdamWオプティマイザを使用する。各モデルは2000ステップ訓練され、これは20億トークンのデータセットに対して約1エポックに相当する。バッチサイズは8に設定され、64Kコンテキストでは1バッチあたり50万トークン、128Kコンテキスト長では100万トークンに相当する。 表1に訓練構成をまとめる。

表1: 訓練構成。
Long-context Continuous Training
Data UpSampledMix / SlimPajama128K/ SlimPajama64K
UpSampledMix-128K: 58% CC, 20% C4, 7% GitHub, 6% ArXiv, 5% Books, 4% Wiki, 2% StackExchange
SlimPajama-128K: 53% CC, 27% C4, 5% GitHub, 5% ArXiv, 4% Books, 3% Wiki, 3% StackExchange
SlimPajama-64K: 54% CC, 25% C4, 5% ArXiv, 5% GitHub, 4% Books, 3% Wiki, 3% StackExchange
Model Initialization: Llama-2-7B / Llama-3-8B / Qwen-1.5-1.8B / Mistral-7B-v0.3
RoPE: 16K: 1×1061superscript1061\times 10^{6}1 × 10 start_POSTSUPERSCRIPT 6 end_POSTSUPERSCRIPT, 64K: 5×1065superscript1065\times 10^{6}5 × 10 start_POSTSUPERSCRIPT 6 end_POSTSUPERSCRIPT, 128K:   1×1071superscript1071\times 10^{7}1 × 10 start_POSTSUPERSCRIPT 7 end_POSTSUPERSCRIPT
Attention: Full attention/ Intra-doc attention / Intra-doc attention with Reset
AnchorAttention / AnchorAttention with Tag
Optim. AdamW (weight decay = 0.10.10.10.1, β1=0.9subscript𝛽10.9\beta_{1}=0.9italic_β start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0.9, β2=0.95subscript𝛽20.95\beta_{2}=0.95italic_β start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 0.95)
LR: 2e52𝑒52e-52 italic_e - 5       Steps:    2000 steps
Batch size: 8 (0.5M token for 64K, 1M tokens for 128K)

4.2 Controllable Study with Meaningful Evaluations

適切な指標を用いた長文脈能力の測定。 我々が提案する注意機構がベースモデルの長文脈能力を向上させる効果を決定的に評価するためには、堅牢で適切な評価指標を使用することが重要である。

パープレキシティ(PPL)は長文脈言語モデルの評価によく用いられるが、最近の研究ではその長文理解能力の評価における信頼性に疑問が投げかけられている。Hu et al. (2024)は、PPLが主に局所的な情報の捕捉を測定するため、モデルの長距離依存関係の理解能力との相関が低いことを示している。さらに、Fang et al. (2024)は、PPLが長文脈入力の理解に不可欠な重要なトークンを見落とし、信頼性の低い評価につながるという経験的証拠を提供している。また、Gao et al. (2024)は、長文データの量を増やすとPPLは改善するものの、長文データのみを使用すると下流の長文脈タスクのパフォーマンスが大幅に低下することを発見している。これらの観察と一致して、我々も初期の訓練ステップ後にPPLが変化しない一方で、RULER ベンチマーク(Hsieh et al., 2024)のパフォーマンスは向上し続けることを発見した(図4参照)。これはさらに、PPLが長文脈パフォーマンスの向上を適切に反映していない可能性を示している。

HELMET (Yen et al., 2024)、LongBench (Bai et al., 2023)、LongBench-Cite (Zhang et al., 2024a)、InfiniteBench (Zhang et al., 2024c)、NoCha (Karpinska et al., 2024)などの既存の長文脈言語モデル用ベンチマークは、指示追従能力に大きく依存しており、長文脈ベースモデルの評価には適していない。さらに、LongBench (Bai et al., 2023)のタスクは16Kトークンの文脈長で十分に対応できる。16Kトークンは中程度の長さの文脈を表すが、64Kあるいは128Kトークンを扱える我々のようなモデルを十分に挑戦させるものではない。 これらの制限にもかかわらず、我々はLongBenchで我々のモデルを評価した。なぜなら、それが実世界の長文脈タスクを含んでおり、そのfew-shot in-context learning (ICL)タスクがベースモデルの評価に適しているからである。ベースモデルの評価におけるfew-shot ICLの有効性は、Gao et al. (2024)の同時期の研究でも観察されている。

我々のモデルの長文脈能力をより徹底的に評価するために、我々はRULERベンチマーク(Hsieh et al., 2024)を採用している。これは特に長い文脈長のために設計されたものである。RULERは、(1)膨大な内容から特定のデータを見つける能力、(2)広範な文脈にわたる関係を追跡する能力、(3)分散した情報を集約し定量化する能力、(4)複雑なクエリから関連する詳細を無関係な情報から区別する能力など、様々な能力を評価する。このベンチマークには、Needle-in-a-Haystack (NIAH)、Variable Tracing (VT)、Common and Frequent Words (Aggregation)、Question Answering (QA)など、様々なカテゴリーのタスクが含まれており、それぞれが長文脈処理の異なる側面を対象としており、我々のようなモデルの能力をより正確に表現している。

Refer to caption
図4: 長文脈訓練中にRULERのパフォーマンスは変動する。我々は最終訓練ステップだけでなく、平均化されたRULERパフォーマンスを報告することを推奨する。 PPLは最初の数ステップ後に変化しなくなり、長文脈能力の向上を反映できていない。

しかし、13のタスク全てにわたる全体的なパフォーマンスを測定する公式評価とは異なり、我々はLLaMA-2-7Bモデルに対して2つのタスク(NIAH-Single 3とNIAH-Multikey 3)を除外している。この除外は、長文脈訓練が主にモデルの既存の能力を元の文脈ウィンドウからより長いシーケンスに拡張するという仮定と、LLaMA-2-7Bが元の4K文脈ウィンドウ内でもこれら2つのタスクに苦戦していたという観察に基づいている。したがって、モデルが元のウィンドウ内で実行できなかったスキルを拡張された文脈で新たに獲得することを期待するのは不合理である。(LLaMA-2-7BLLaMA-2-7B-Chatの13タスク全てにわたる詳細な結果と包括的な議論は付録Dに記載されている)。なお、クロスアーキテクチャ評価セクション(セクション5.3)の他の高度なモデル(LLaMA-3-8BMistral-7B-v0.3Qwen-1.5-1.8B)については、13タスク全てを使用している。

さらに、単一のチェックポイントでRULERのパフォーマンスを報告する以前の研究とは異なり、我々は最後の50訓練ステップにわたって10ステップごとにチェックポイントを保存し、5つのチェックポイントにわたる平均RULERパフォーマンスを報告することを提案する。異なるランダムシードで5回モデルを再訓練することも、パフォーマンスを平均化する合理的な方法であるが、実験コストが大幅に増加する。複数のチェックポイントにわたる平均化の必要性を示すために、我々は16Kウィンドウサイズの元のSlimPajamaで標準的な全注意を用いて訓練されたLLaMA-2-7BのRULERパフォーマンスを評価した。図4に示すように、16K RULERベンチマークのパフォーマンスは訓練中に変動を示している。特定のチェックポイントを恣意的に選択することを防ぐために、我々は将来の研究が複数のチェックポイントにわたる平均パフォーマンスを報告することを提案する。

LLLMの一般的能力。 継続的な事前訓練がモデルの初期文脈長内での中核的な能力を保持していることを確認するために、我々はMMLU (Hendrycks et al., 2021)とHellaSwag (Zellers et al., 2019)ベンチマークを使用する。MMLUはSTEM、人文科学、社会科学、哲学、法律、医学を含む57の多様な科目にわたる知識と推論を評価し、一般的な理解の広範な尺度を提供する。HellaSwagは、モデルにシナリオの最も妥当な続きを選択させることで常識的推論をテストし、文脈的予測スキルに挑戦する。 これらのベンチマークは基礎的能力を評価するための標準的な選択肢であり、我々はベースモデルとチャットモデル間でパフォーマンスの差がほとんどないことを観察しており、これらがベースモデルの能力評価に適していることを支持している。

4.3 Optimizing Positional Embeddings for Long-Context Training

長文脈学習に最適な位置埋め込みを見出すため、我々はLLaMA-2-7BをSlimPajama-64Kデータセットで訓練した。このデータセットは64Kトークンの系列に分割されている。我々は3つの手法を評価した:RoPE (Su et al., 2021)、NTK-aware (LocalLLaMA, 2023)、およびYaRN (Peng et al., 2023)である。(Men et al., 2024)に従い、埋め込み公式θi=base2i/dsubscript𝜃𝑖superscriptbase2𝑖𝑑\theta_{i}=\text{base}^{-2i/d}italic_θ start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = base start_POSTSUPERSCRIPT - 2 italic_i / italic_d end_POSTSUPERSCRIPT(式6)のbase値を変化させた。これはTransformersのrope-thetaパラメータに相当する(Wolf et al., 2020)。 NTK-awareとYaRNは相対スケールs=Tnew/Torigin𝑠subscript𝑇newsubscript𝑇origins=T_{\text{new}}/T_{\text{origin}}italic_s = italic_T start_POSTSUBSCRIPT new end_POSTSUBSCRIPT / italic_T start_POSTSUBSCRIPT origin end_POSTSUBSCRIPTに依存する。ここでToriginsubscript𝑇originT_{\text{origin}}italic_T start_POSTSUBSCRIPT origin end_POSTSUBSCRIPTは元の文脈サイズ(4K文脈長)、Tnewsubscript𝑇newT_{\text{new}}italic_T start_POSTSUBSCRIPT new end_POSTSUBSCRIPTは拡張サイズ(64K文脈長)であるため、我々はs=16𝑠16s=16italic_s = 16と設定した。 (Fu et al., 2024)に従い、長文脈能力の学習には1Bトークンで十分であることが示唆されているため、我々は各訓練で1Bトークンを使用し、訓練時間と複数モデルの評価のバランスを取った。

2は、RULERベンチマークにおける4Kから64Kトークンまでの性能を示している。適切なbase値を持つ通常のRoPEが訓練文脈長内で最も良い性能を示し、64K文脈長でNTK-awareとYaRN手法を上回っている。 訓練文脈長を超えた性能(汎化)を測定するため、我々はモデルを128K RULERベンチマークで評価した(表4)。YaRN埋め込みは未見のより長い文脈に対してより良く汎化する。一方、通常のRoPEは訓練された長さ内では良好な性能を示すが、より長い文脈では性能が低下する。 RoPEのbase値の重要性を認識し、我々は計算資源を節約するため32K文脈長でモデルを訓練し、rope-thetaの選択をさらに研究した。表3に示すように、性能は特定のtheta値でピークに達し、それ以上ではわずかな利益しか得られず、thetaをさらに増加させると性能がわずかに低下する。これは(Liu et al., 2023b; Men et al., 2024)の観察と一致している。 これらの知見に基づき、我々は文脈長に応じてbase thetaの値を適応させる:32Kに対して1M、64Kに対して5M、128Kに対して10M、256Kに対して50Mである。このアプローチにより、異なる文脈長にわたって最適な性能を確保できる。 表2: 通常のRoPEで訓練された長文脈モデルは、拡張された文脈ウィンドウサイズ内で評価した場合、NTKやYaRNを使用したモデルよりも優れた性能を示す。FreesuperscriptFree\text{Free}^{\star}Free start_POSTSUPERSCRIPT ⋆ end_POSTSUPERSCRIPTは訓練なしで直接評価されたモデルを示す。 Base 64K 32K 16K 8K 4K FreesuperscriptFree\text{Free}^{\star}Free start_POSTSUPERSCRIPT ⋆ end_POSTSUPERSCRIPT RoPE 10K - - - - 85.29 YaRN 10K 0.18 1.09 6.02 18.38 29.06 RoPE 1M 66.89 70.79 77.02 84.64 90.42 5M 68.81 72.68 81.03 85.79 89.28 10M 69.43 71.01 81.01 85.28 88.13 YaRN 1M 64.22 65.69 73.28 79.98 85.02 5M 63.48 64.47 75.29 79.90 84.01 10M 58.91 62.03 70.68 75.62 83.04 NTK 10K 47.32 53.05 60.62 72.42 81.61 1M 62.47 70.49 75.87 83.48 86.41 5M 61.45 68.52 75.90 78.47 85.17 10M 58.75 65.95 72.27 77.43 83.99 表3: 適切なbase𝑏𝑎𝑠𝑒baseitalic_b italic_a italic_s italic_eは長文脈学習にとって重要である。大きすぎる値や小さすぎる値を使用すると性能が低下する可能性がある。 Base 32K 16K 8K 4K 平均 500 8.52 16.43 21.18 37.06 20.80 10K 15.21 28.79 43.61 83.03 42.66 200K 68.91 76.67 85.64 88.00 79.81 600K 74.61 81.79 85.03 89.36 82.70 900K 75.05 81.62 85.22 88.65 82.64 5M 76.09 77.15 85.66 87.00 81.48 1B 73.97 76.48 81.09 82.33 78.47 表4: 拡張された文脈ウィンドウを超えて評価すると、YaRNが優位性を示す。 Base 128K 64K RoPE 1M 35.93 (-30.95) 66.88 5M 53.98 (-14.83) 68.81 YaRN 10K 27.25 (-22.84) 50.09 1M 57.07 (-7.

5 Experimental Results

5.1 AnchorAttention Performance on RULER

我々は、LLaMA-2-7BモデルをSlimPajama-64K、SlimPajama-128K、およびUpSampledMix-128Kの3つのデータセットを用いて、Full Attention、Intra-Document Attention、そして我々が提案するAnchorAttentionを含む様々な注意機構を使用して事前学習を継続した。その後、RULERベンチマークでそれらの性能を評価した(表5)。位置IDのリセットは、一般的にIntra-Document Attentionの性能を向上させることが観察された。ただし、一部のケースでは差異が無視できるほど小さかった(例えば、SlimPajama-64KとUpSampledMix-128Kデータセットの4Kトークンの場合)。 我々が提案するAnchorAttentionは、すべてのデータセットおよび系列長において、Full AttentionとIntra-Document Attentionを一貫して上回る性能を示し、特に長いコンテキストで優れていた。3つのデータセットすべてにおいて、AnchorAttentionはあらゆる長さで最高スコアを達成し、他のベースライン手法を一貫して上回った。 また、UpSampledMix-128Kデータセットは、Full AttentionとIntra-Document Attention機構を用いた学習時にモデルの性能を向上させることが観察された。しかし、我々が提案するAnchorAttentionを長文脈学習に使用した場合、SlimPajama-128KとUpSampledMix-128Kで学習したモデル間の性能差が大幅に縮小した。 これは、AnchorAttentionが慎重にアップサンプリングされたデータへの依存を減少させる可能性を示唆しており、将来のデータ準備プロセスを簡素化する可能性がある。

5.2 What Works and Doesn’t in AnchorAttention: Domain Tagging and Interleaved Chunks

我々は、AnchorAttentionの性能を向上させる可能性のある2つのデータ活用戦略、すなわちドメインタギングとインターリーブドチャンクについてさらに調査を行う。これらは図5に示されている。

Refer to caption
図5: ドメインタギングとインターリーブドチャンクの図解。 左:ドメインタギングを用いたAnchorAttention。𝒯1subscript𝒯1\mathscr{T}_{1}script_T start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTは文書d1subscriptd1\textbf{{d}}_{1}d start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTのドメインを表す。 中央:インターリーブドチャンクを用いた文書内注意機構。文書はシャッフルされたインターリーブドチャンクに分割され、各文書内の元の順序は保持される。 右:インターリーブドチャンクを用いたAnchorAttention。

ドメインタギング:この戦略では、各学習テキストシーケンスの先頭にドメイン識別子(例:「Wikipedia」や「CommonCrawl」)を付加し、学習中にこれらのタグからの損失をマスクアウトする。これにより、モデルは特定のドメインからの情報を認識し、潜在的に優先することができる。先行研究(Allen-Zhu & Li, 2024; Zhang et al., 2024b)は、ドメインタギングが知識の保存を最適化し、選択的学習を支援し、情報を保持しつつ競合を回避できることを示唆している。

インターリーブドチャンク:文書はランダムな分割点で複数のチャンクに分割され、シャッフルされ、新しいシーケンスに再結合される。各文書内のチャンクの元の順序は保持される(例:文書の2番目のチャンクは、新しく構成されたデータシーケンスにおいて常に1番目のチャンクの後に現れる)。Zhao et al. (2024a)は、この技術を用いて合成的な長文脈データを生成し、効果的に拡張された文脈を扱うモデルを訓練した。

5において、我々の実験結果は、インターリーブドチャンクを組み込むこと(AnchorAttention + Interleaved Chunks)が、基本的なAnchorAttentionと比較して一貫してパフォーマンスを低下させることを示している。AnchorAttentionとインターリーブドチャンクの間に互換性がないかどうかを調査するため、我々はSlimPajama-64KとSlimPajama-128Kデータセットにおいて、インターリーブドチャンクを用いた文書内注意機構による追加実験を行った。この組み合わせもまたパフォーマンスの低下をもたらし、ベースラインのFull Attentionの性能をも下回った。注目すべきは、先行研究(Zhao et al., 2024a)が、Full Attentionと組み合わせたインターリーブドチャンクがパフォーマンスを向上させることを示していることである。したがって、我々は文書間注意機構のマスキングがインターリーブドチャンクと互換性がないという仮説を立てる。 我々が提案するAnchorAttentionは、一般的にベースラインのFull Attentionよりもパフォーマンスを向上させるが、文書の一貫性が保持された生データをAnchorAttentionと共に使用する場合ほど効果的ではない。ドメインタギングに関しては、ドメインタグを追加すること(AnchorAttention + Tag)が基本的なAnchorAttentionを一貫して改善するわけではない。例えば、SlimPajama-64Kデータセットでは、64Kトークンでわずかに高いスコアを達成する(73.88対73.25)が、32Kトークンではわずかに劣る。SlimPajama-128KとUpSampledMix-128Kデータセットでも同様の傾向が観察される。AnchorAttention + Tagは特定のトークン長でAnchorAttentionを上回ることがあるが、全体的には基本的なAnchorAttentionの方が一般的に良好なパフォーマンスを示す。 総じて、これらの観察結果は、ドメインタギングの組み込みが長文脈のパフォーマンスを時に改善する可能性があること、インターリーブドチャンクは文書間注意機構のマスキングと共に使用された場合、一貫してパフォーマンスを低下させることを示唆している。

表5: 64Kおよび128Kトークンデータセットの結果。全手法中の最高スコアは太字で示されている。文書内注意機構カテゴリー内では、より高いスコアに下線が引かれている。他の手法を上回るAnchorAttentionとその変種は付きの背景でハイライトされている。
Attention Mechanism 128K 64K 32K 16K 8K 4K
SlimPajama-64K
Full Attention \setminus 66.40 71.78 77.63 83.86 89.84
Intra-Doc Attention \setminus 69.97 74.70 79.15 83.50 89.62
    + Reset \setminus 70.03 74.18 80.27 84.51 89.52
    + Interleaved Chunks \setminus 60.59 66.52 71.70 79.70 84.71
AnchorAttention \setminus 73.25 75.97 82.91 85.48 90.69
  + Tag \setminus 73.88 74.21 82.46 85.13 89.93
    + Interleaved Chunks \setminus 66.77 69.73 77.81 85.35 89.31
SlimPajama-128K
Full Attention 62.75 70.56 71.38 81.65 83.61 88.85
Intra-Doc Attention 64.31 70.87 72.07 82.60 84.11 88.98
    + Reset 65.75 73.34 73.30 82.82 84.43 90.01
    + Interleaved Chunks 53.74 61.08 65.51 75.25 80.59 82.71
AnchorAttention 66.15 77.69 74.28 83.67 86.41 90.60
  + Tag 65.46 74.67 75.77 83.07 84.07 89.09
UpSampledMix-128K
Full Attention 63.70 71.45 72.69 82.57 84.55 90.08
Intra-Doc Attention 63.96 74.52 76.53 82.46 86.61 90.35
    + Reset 64.10 74.55 77.73 82.82 87.16 89.98
AnchorAttention 65.24 76.11 79.51 86.54 87.43 90.44
  + Tag 66.85 73.52 77.18 81.62 84.90 89.01

5.3 Cross-Model Evaluation of AnchorAttention for Long-Context Performance

AnchorAttentionの様々なモデルアーキテクチャにおける汎用性を評価するため、我々は複数の事前学習済みモデルにおいてその長文脈性能を評価した。表6に示すように、我々が提案するAnchorAttentionメカニズムは、異なるモデルと文脈長にわたって、標準的なFull Attentionを一貫して上回る性能を示し、特に長い系列において顕著である。LLaMA-3-8BMistral-7B-v0.3Qwen-1.5-1.8Bの3つのモデル全てにおいて、AnchorAttentionはほとんどの系列長でより高いスコアを達成している。 なお、Qwenシリーズはbosトークンを使用していないため、我々の実装ではeosトークンを共有アンカーとして使用している。 LLaMA-3-8Bモデルの128Kトークンの文脈長の場合、AnchorAttentionはFull Attentionの34.02に対して51.49のスコアを達成している。ドメインタグの導入(AnchorAttention + Tag)は、時として性能をさらに向上させ、Mistral-7B-v0.3モデルの128Kトークンにおいて、スコアが49.61に上昇したことが観察された。 これらの結果は、AnchorAttentionが異なるモデルアーキテクチャにわたって長文脈性能を効果的に向上させることを確認し、その堅牢性と広範な適用可能性を実証している。

表6: 異なるモデルとトークンサイズにおけるAttentionメカニズムの性能
Attention Mechanism 128K 64K 32K 16K 8K 4K
LLaMA-3-8B
Full Attention 34.02 61.80 72.09 79.99 82.43 83.68
AnchorAttention 51.49 70.99 83.06 86.90 88.09 88.72
  + Tag 49.67 70.37 84.14 87.13 88.36 88.97
Mistral-7B-v0.3
Full Attention 45.64 49.05 54.49 64.06 69.99 72.80
AnchorAttention 47.46 61.26 68.53 73.47 76.06 78.94
  + Tag 49.61 56.80 64.13 69.47 74.65 77.34
Qwen-1.5-1.8B
Full Attention 33.56 41.77 47.01 56.15 61.33 67.26
AnchorAttention 34.32 44.31 48.63 56.90 62.62 68.61
  + Tag 35.84 43.91 50.70 57.39 61.96 67.41

5.4 General Performance on Medium- and Short-Context Tasks

言語モデルの長文脈能力を向上させると、しばしば中・短文脈タスクの性能とのトレードオフが生じることが、先行研究で指摘されている(Xiong et al., 2023)。我々の目的は、長文脈理解を改善するだけでなく、より短い文脈のタスクにおいても強力な性能を維持することである。 この均衡を評価するため、我々はLongBench(中程度の文脈評価)、HellaSwag、MMLU(短文脈ベンチマーク)でモデルをテストした。表7にこれらの結果をまとめている。結果は、AnchorAttentionで訓練されたモデルが、フルアテンションや文書内アテンションを使用したモデルと比較して、事前学習段階からの一般的能力をより良く保持していることを示している。重要なことに、元のLLaMA-2-7Bと比較しても、AnchorAttentionを用いたモデルは短文脈タスクで競争力を維持している。 HellaSwagデータセットでは、SlimPajama-64Kで訓練されたAnchorAttentionモデルは70.78のスコアを達成し、元のLLaMA-2-7Bのスコア71.39に近い結果を示している。MMLUベンチマークでは、AnchorAttention + Tag変種が42.85のスコアを達成し、46.66のベースラインに迫っている。これらの結果は、AnchorAttentionが長文脈能力を大幅に改善しながら、中・短文脈タスクの性能を実質的なトレードオフなしに効果的に維持していることを示している。 さらに、ドメインタグ付けを組み込むことで、大規模言語モデルの一般的能力を効果的に保持している。

表7: LongBench ICL、HellaSwag、MMLUデータセットにおける結果。
Attention Mechanism LongBench ICL HellaSwag MMLU
LLaMA-2-7B 6.22 71.39 46.66
SlimPajama-64K
Full Attention 62.51 68.50 33.93
Intra-Doc Attention 62.79 71.01 36.94
    + Reset 63.76 70.12 37.92
AnchorAttention 65.38 70.78 40.32
    + Tag 66.02 69.10 40.67
SlimPajama-128K
Full Attention 50.72 69.46 37.93
Intra-Doc Attention 51.22 69.93 39.49
    + Reset 50.07 69.88 37.42
AnchorAttention 51.85 70.51 41.63
    + Tag 51.89 70.37 42.85
UpSampledMix-128K
Full Attention 48.96 67.64 40.58
Intra-Doc Attention 49.51 70.86 41.27
    + Reset 50.18 70.97 40.79
AnchorAttention 50.17 70.11 41.15
    + Tag 50.70 68.97 42.03

5.5 Infrastructure and Engineering

長文脈言語モデルの訓練には効率的な実装が不可欠である。我々はAnchorContextを導入する。これはLLaMAシリーズ、Mistralシリーズ、Qwen2シリーズなど、様々なモデルと互換性のあるAnchorAttentionメカニズムを提供するコードベースである。より広範なフレームワークとの互換性を高めるため、2つの計算エンジンオプションを提供している:FlexAttention(PyTorch 2.5.0でネイティブにサポートされる予定)とFlashAttention(現在最も一般的に使用されている)。

我々の実験結果の信頼性を確保するため、精度、速度、統合の容易さの観点から、我々の手法を既存の技術と比較することに焦点を当てた:

精度。 分散訓練は数値誤差を引き起こし、モデルの出力に影響を与える可能性があるため、ある手法が異なる計算設定間で数値的一貫性を維持できるかどうかを評価することが重要である。我々は、8台のA100 GPUで32Kの文脈長を持つ同じ訓練データシーケンスを処理する際のロジット(順伝播の出力)の差異を測定することで、我々の手法の数値精度を評価した。具体的には、以下のモデルの出力を比較した: 1. FlashAttention2のみ(ベースライン、分散訓練なし)、 2. Zigzag-Ring attention(EasyContextの実装から (Zhang, 2023))を分散設定で使用、 3. 我々のAnchorContextをDeepSpeed-Ulysses (Jacobs et al., 2023)によるシーケンス並列性に基づいて分散設定で使用。

5.5に示すように、Zigzag-Ring attentionはベースラインと比較して最大0.75のロジット差を示し、分散計算によって導入された数値的な不一致を示している。対照的に、我々のAnchorContextの実装は、分散訓練を行わないFlashAttention2の使用と比較してロジットの差がゼロであり、その数値精度の高さを示している。

表8: 我々の分散計算は32Kシーケンス長でゼロのロジット差を達成する。
Zigzag-Ring (EasyContext) Our Impl. (AnchorContext)
Full Attn 0.750.750.750.75 00
AnchorAttn - 00

速度と効率性。 我々の手法は正確であるだけでなく、大幅に高速である。FlashAttention2を統合し、AnchorContextフレームワーク内のアテンションメカニズムを最適化することで、より高いGPU利用率と高速な訓練時間を実現している。図6は、様々な文脈長で10億トークンを処理するのに必要な推定日数を示している。これは、同じシーケンス並列性とDeepSpeed-Ulysses構成を使用した場合、我々のAnchorAttentionがFull Attentionと比較して訓練時間を大幅に削減することを示しており、我々のアプローチの効率性の向上を示している。

統合の容易さ。 実用性を念頭に設計された我々のAnchorAttentionは、FlashAttention (Dao, 2024)とHugging Face transformers (Wolf et al., 2020)を使用する他の訓練コードベースにシームレスに統合される。我々のAnchorContextアプローチの柔軟性により、研究者はコードベースに大幅な修正を加えることなく容易に採用することができる。

高度な実験のサポート。 さらに、我々の手法とFlexAttentionメカニズムの組み合わせにより、より高度な実験をサポートすることができる。例えば、図6に示すように、インターリーブされたチャンクに必要な柔軟なアテンションマスクを容易にする。この柔軟性により、研究者は新しいアイデアを探求し、長文脈モデルの境界を押し広げることができる。

Refer to caption
図6: 様々な文脈長で10億トークンを処理するのに必要な推定訓練時間を異なるアテンションメカニズムで比較したもの。我々のAnchorAttentionはFull Attentionが必要とする時間の50%percent5050\%50 %以上を削減する。

6 Related Work

Positional Embedding.

位置エンベディングは、Transformerが入力トークンの順序を捉えるために不可欠である(Vaswani et al., 2017)。初期の手法では絶対的または学習された位置エンベディングが使用されていたが(Vaswani et al., 2017; Devlin, 2018)、これらは長いシーケンスへの一般化に苦戦することが多かった。相対的位置エンベディング(Shaw et al., 2018; Ke et al., 2021)は、可変長シーケンスをより効果的に扱うために導入された。最近では、回転位置エンベディング(RoPE)(Su et al., 2021)が大規模言語モデル(LLM)で人気を集めている(Touvron et al., 2023; Dubey et al., 2024; Jiang et al., 2023; Yang et al., 2024; Abdin et al., 2024)。これは、最小限の微調整で推論コンテキスト長を拡張できる能力によるものである(Liu et al., 2023b; Chen et al., 2023a; LocalLLaMA, 2023; Peng et al., 2023; Men et al., 2024; Fu et al., 2024)。RoPEを基に、Position Interpolation(Chen et al., 2023a)、NTK Interpolation(LocalLLaMA, 2023)、YaRN(Peng et al., 2023)、Resonance RoPE(Wang et al., 2024b)、CLEX(Chen et al., 2024)などの手法が提案され、長文脈処理能力を向上させている。 一方で、我々は、BFloat16の精度がRoPEの相対位置特性をどのように損なう可能性があるかを調査している。

Extending Language Model Context Lengths.

訓練不要の手法がコンテキスト長の拡張において有望性を示しているもののXiao et al. (2023); Han et al. (2023); Ruoss et al. (2023)、最近の研究では、長いコンテキストを扱うための追加訓練に注力することで、著しく優れた結果が得られることが示されているFu et al. (2024); Xiong et al. (2023); Gao et al. (2024)。長コンテキスト訓練には課題がある:二次計算量の複雑性と事前訓練コンテキスト長を超えた場合の性能低下である。これらの問題に対処するため、様々なアプローチが提案されている。一部の手法は、修正されたRoPEを用いた訓練によってコンテキストウィンドウを拡張している(Chen et al., 2023a; LocalLLaMA, 2023; Peng et al., 2023; Men et al., 2024)。これはRoPEのベースを調整することで、最小限の訓練でモデルがより長いコンテキストを扱えるようにするものである。 他の戦略では、拡張されたコンテキストを効率的に扱うために注意パターンを操作している(Chen et al., 2023b; Xiao et al., 2023; 2024; Bertsch et al., 2024; Jin et al., 2024; Ge et al., 2024; Yin et al., 2024)。これは注意機構を再設計し、入力の最も関連性の高い部分に計算リソースを優先的に割り当てることで、より長いシーケンスに対するオーバーヘッドを削減するものである。 さらなる取り組みとして、スパース注意(Lou et al., 2024; Ge et al., 2024)やグループクエリ注意(Ainslie et al., 2023)などの技術を通じて注意の計算複雑性を削減し、最適化された実装(Dao, 2024)を行っている。 さらにハードウェアの制限を克服するため、シーケンス並列化(Li et al., 2021)のような手法は複数のデバイスにシーケンスを分散させ、リング注意(Liu et al., 2023a)やDeepSpeed-Ulysses(Jacobs et al., 2023)は分割されたシーケンスを処理する際の通信戦略を最適化することで効率を向上させている。 我々の研究は、効率的な実装を伴う連続的な長コンテキスト訓練アプローチを採用しているが、特にBFloat16精度によってRoPEで引き起こされる問題を軽減するための注意設計に焦点を当てている。

7 Conclusion

本稿では、回転位置埋め込み(RoPE)とBFloat16精度の組み合わせが、特に長文脈シナリオにおいてRoPEの相対的位置エンコーディングの特性を破壊するという重大な問題を特定した。我々の分析により、シーケンスの最初のトークンがこの崩壊に大きく寄与しており、トレーニングウィンドウサイズが大きくなるにつれて数値誤差の蓄積により問題が悪化することが明らかになった。 この問題に対処するため、我々はAnchorAttentionという新しいアテンション機構を提案した。これは、コンテキストウィンドウ内のすべての文書間で最初のトークンを共有アンカーとして扱うものである。このアンカートークンに同じ位置IDを割り当て、すべての文書から可視化できるようにする一方で、異なる文書からのトークンは互いに不可視にすることで、AnchorAttentionは位置エンコーディングの一貫性を維持する。このアプローチは、RoPEの相対的位置特性の完全性を保持するだけでなく、アテンション計算に関与するトークン数を減少させ、数値誤差の蓄積を軽減する。 我々の実験により、AnchorAttentionは8Kから128Kトークンの文脈長にわたるRULERのような長文脈ベンチマークにおいて、フルアテンションや標準的な文書内アテンション手法を一貫して上回ることが示された。さらに、LongBenchのような実世界の長文脈ベンチマークでは、AnchorAttentionはMMLUやHellaSwagなどの一般的なタスクにおけるモデルの能力を大きく保持しつつ、文脈内学習性能を向上させた。重要なことに、AnchorAttentionは既存のトレーニングパイプラインに最小限の修正しか必要とせず、標準的なアテンショントレーニングと比較してトレーニング時間を50%以上削減する。

8 Future Work

我々の実証分析では、複数のシーケンスにわたる平均注意差を測定した。また、付録Bに示されている可視化を用いて、サンプルごとの注意差も検討した。これらの差異はサンプル間で一貫しており、単純な関数でもその差を近似できることを観察した。特筆すべきは、最初のトークンがこの不一致に最も寄与していることであり、これは最初のトークンの位置IDが絶対位置として機能しているという仮説につながる。最初の位置の特性とその位置エンコーディングへの影響をより厳密に調査するには、今後の研究が必要である。 さらに、入力シーケンスの最初のトークンの重要性が観察されたことから、この現象と広く報告されている注意シンクおよび大規模活性化との間に潜在的な関係があるのではないかと我々は推測する(Xiao et al., 2023; Han et al., 2023; Gu et al., 2024; Guo et al., 2024a; Sun et al., 2024; Guo et al., 2024b)。この関連性を探求し、長文脈言語モデルにおける注意メカニズムにどのような影響を与える可能性があるかを理解するためには、さらなる研究が必要である。

Limitations

我々は提案する注意メカニズムの主要コンポーネントを取り除く実験を試みたが、リソースの制限により、事前学習への有効性、最適化ハイパーパラメータ、追加のデータミックスチャーなど、すべての側面を網羅することはできない。 また、我々は2Bトークンを用いた10Bスケールのモデルサイズに限定しており、これにより我々の発見の一般化可能性が制限される可能性がある。

References

  • Abdin et al. (2024) Marah Abdin, Jyoti Aneja, Hany Awadalla, and et al. Phi-3 technical report: A highly capable language model locally on your phone, 2024. URL https://arxiv.org/abs/2404.14219.
  • Agarwal et al. (2024) Rishabh Agarwal, Avi Singh, Lei M Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D Co-Reyes, Eric Chu, et al. Many-shot in-context learning. arXiv preprint arXiv:2404.11018, 2024.
  • Ainslie et al. (2023) Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, and Sumit Sanghai. Gqa: Training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245, 2023.
  • Allen-Zhu & Li (2024) Zeyuan Allen-Zhu and Yuanzhi Li. Physics of language models: Part 3.3, knowledge capacity scaling laws. arXiv preprint arXiv:2404.05405, 2024.
  • Bai et al. (2023) Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, and Juanzi Li. Longbench: A bilingual, multitask benchmark for long context understanding. arXiv preprint arXiv:2308.14508, 2023.
  • Bertsch et al. (2024) Amanda Bertsch, Uri Alon, Graham Neubig, and Matthew Gormley. Unlimiformer: Long-range transformers with unlimited length input. Advances in Neural Information Processing Systems, 36, 2024.
  • Chen et al. (2024) Guanzheng Chen, Xin Li, Zaiqiao Meng, Shangsong Liang, and Lidong Bing. Clex: Continuous length extrapolation for large language models, 2024. URL https://arxiv.org/abs/2310.16450.
  • Chen et al. (2023a) Shouyuan Chen, Sherman Wong, Liangjian Chen, and Yuandong Tian. Extending context window of large language models via positional interpolation. arXiv preprint arXiv:2306.15595, 2023a.
  • Chen et al. (2023b) Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, and Jiaya Jia. Longlora: Efficient fine-tuning of long-context large language models. ArXiv, abs/2309.12307, 2023b.
  • Dao (2024) Tri Dao. FlashAttention-2: Faster attention with better parallelism and work partitioning. In International Conference on Learning Representations (ICLR), 2024.
  • Devlin (2018) Jacob Devlin. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
  • Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, and et al. The llama 3 herd of models. ArXiv, abs/2407.21783, 2024.
  • Fang et al. (2024) Lizhe Fang, Yifei Wang, Zhaoyang Liu, Chenheng Zhang, Stefanie Jegelka, Jinyang Gao, Bolin Ding, and Yisen Wang. What is wrong with perplexity for long-context language modeling?, 2024. URL https://arxiv.org/abs/2410.23771.
  • Fu et al. (2024) Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hanna Hajishirzi, Yoon Kim, and Hao Peng. Data engineering for scaling language models to 128k context. ArXiv, abs/2402.10171, 2024.
  • Gao et al. (2024) Tianyu Gao, Alexander Wettig, Howard Yen, and Danqi Chen. How to train long-context language models (effectively). arXiv preprint arXiv:2410.02660, 2024.
  • Ge et al. (2024) Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, and Hao Peng. A little goes a long way: Efficient long context training and inference with partial contexts. arXiv preprint arXiv:2410.01485, 2024.
  • Gu et al. (2024) Xiangming Gu, Tianyu Pang, Chao Du, Qian Liu, Fengzhuo Zhang, Cunxiao Du, Ye Wang, and Min Lin. When attention sink emerges in language models: An empirical view. arXiv preprint arXiv:2410.10781, 2024.
  • Guo et al. (2024a) Tianyu Guo, Druv Pai, Yu Bai, Jiantao Jiao, Michael I Jordan, and Song Mei. Active-dormant attention heads: Mechanistically demystifying extreme-token phenomena in llms. arXiv preprint arXiv:2410.13835, 2024a.
  • Guo et al. (2024b) Zhiyu Guo, Hidetaka Kamigaito, and Taro Watanabe. Attention score is not all you need for token importance indicator in kv cache reduction: Value also matters, 2024b. URL https://arxiv.org/abs/2406.12335.
  • Han et al. (2023) Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, and Sinong Wang. Lm-infinite: Simple on-the-fly length generalization for large language models. arXiv preprint arXiv:2308.16137, 2023.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, and Jacob Steinhardt. Aligning ai with shared human values. Proceedings of the International Conference on Learning Representations (ICLR), 2021.
  • Hsieh et al. (2024) Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, and Boris Ginsburg. Ruler: What’s the real context size of your long-context language models? arXiv preprint arXiv:2404.06654, 2024.
  • Hu et al. (2024) Yutong Hu, Quzhe Huang, Mingxu Tao, Chen Zhang, and Yansong Feng. Can perplexity reflect large language model’s ability in long text understanding? arXiv preprint arXiv:2405.06105, 2024.
  • Jacobs et al. (2023) Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Shuaiwen Leon Song, Samyam Rajbhandari, and Yuxiong He. Deepspeed ulysses: System optimizations for enabling training of extreme long sequence transformer models, 2023. URL https://arxiv.org/abs/2309.14509.
  • Jiang et al. (2023) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Jimenez et al. (2024) Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik R Narasimhan. SWE-bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=VTF8yNQM66.
  • Jin et al. (2024) Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, and Xia Hu. Llm maybe longlm: Self-extend llm context window without tuning. arXiv preprint arXiv:2401.01325, 2024.
  • Kalamkar et al. (2019) Dhiraj Kalamkar, Dheevatsa Mudigere, Naveen Mellempudi, Dipankar Das, Kunal Banerjee, Sasikanth Avancha, Dharma Teja Vooturi, Nataraj Jammalamadaka, Jianyu Huang, Hector Yuen, et al. A study of bfloat16 for deep learning training. arXiv preprint arXiv:1905.12322, 2019.
  • Karpinska et al. (2024) Marzena Karpinska, Katherine Thai, Kyle Lo, Tanya Goyal, and Mohit Iyyer. One thousand and one pairs: A” novel” challenge for long-context language models. arXiv preprint arXiv:2406.16264, 2024.
  • Ke et al. (2021) Guolin Ke, Di He, and Tie-Yan Liu. Rethinking positional encoding in language pre-training. In International Conference on Learning Representations, 2021. URL https://openreview.net/forum?id=09-528y2Fgf.
  • Li et al. (2021) Shenggui Li, Fuzhao Xue, Chaitanya Baranwal, Yongbin Li, and Yang You. Sequence parallelism: Long sequence training from system perspective. arXiv preprint arXiv:2105.13120, 2021.
  • Liu et al. (2023a) Hao Liu, Matei Zaharia, and Pieter Abbeel. Ring attention with blockwise transformers for near-infinite context, 2023a. URL https://arxiv.org/abs/2310.01889.
  • Liu et al. (2023b) Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, and Dahua Lin. Scaling laws of rope-based extrapolation. arXiv preprint arXiv:2310.05209, 2023b.
  • LocalLLaMA (2023) LocalLLaMA. Ntk-aware scaled rope allows llama models to have extended (8k+) context size without any fine-tuning and minimal perplexity degration, 2023. URL {https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/}.
  • Lou et al. (2024) Chao Lou, Zixia Jia, Zilong Zheng, and Kewei Tu. Sparser is faster and less is more: Efficient sparse attention for long-range transformers. arXiv preprint arXiv:2406.16747, 2024.
  • Mazumder & Liu (2022) Sahisnu Mazumder and Bing Liu. Lifelong and continual learning dialogue systems. arXiv preprint arXiv:2211.06553, 2022.
  • Men et al. (2024) Xin Men, Mingyu Xu, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han, and Weipeng Chen. Base of rope bounds context length, 2024. URL https://arxiv.org/abs/2405.14591.
  • Peng et al. (2023) Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. Yarn: Efficient context window extension of large language models. arXiv preprint arXiv:2309.00071, 2023.
  • Ruoss et al. (2023) Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, and Joel Veness. Randomized positional encodings boost length generalization of transformers. arXiv preprint arXiv:2305.16843, 2023.
  • Shaw et al. (2018) Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations. arXiv preprint arXiv:1803.02155, 2018.
  • Soboleva et al. (2023) Daria Soboleva, Faisal Al-Khateeb, Robert Myers, Jacob R Steeves, Joel Hestness, and Nolan Dey. SlimPajama: A 627B token cleaned and deduplicated version of RedPajama. https://cerebras.ai/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama, 2023. URL https://huggingface.co/datasets/cerebras/SlimPajama-627B.
  • Su et al. (2021) Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding. ArXiv, abs/2104.09864, 2021.
  • Sun et al. (2024) Mingjie Sun, Xinlei Chen, J. Zico Kolter, and Zhuang Liu. Massive activations in large language models, 2024. URL https://arxiv.org/abs/2402.17762.
  • Team et al. (2024) Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, et al. Gemma: Open models based on gemini research and technology. arXiv preprint arXiv:2403.08295, 2024.
  • Touvron et al. (2023) Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, and et al. Llama 2: Open foundation and fine-tuned chat models, 2023.
  • Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
  • Wang et al. (2024a) Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, et al. Leave no document behind: Benchmarking long-context llms with extended multi-doc qa. arXiv preprint arXiv:2406.17419, 2024a.
  • Wang & Kanwar (2019) Shibo Wang and Pankaj Kanwar. Bfloat16: The secret to high performance on cloud tpus. https://cloud.google.com/blog/products/ai-machine-learning/bfloat16-the-secret-to-high-performance-on-cloud-tpus, August 23 2019. Accessed: August 31, 2024.
  • Wang et al. (2024b) Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, and Bang Liu. Resonance rope: Improving context length generalization of large language models. arXiv preprint arXiv:2403.00071, 2024b.
  • Wolf et al. (2020) Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. Transformers: State-of-the-art natural language processing. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp.  38–45, Online, October 2020. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/2020.emnlp-demos.6.
  • Xiao et al. (2024) Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Song Han, and Maosong Sun. Infllm: Unveiling the intrinsic capacity of llms for understanding extremely long sequences with training-free memory. arXiv preprint arXiv:2402.04617, 2024.
  • Xiao et al. (2023) Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, and Mike Lewis. Efficient streaming language models with attention sinks. arXiv preprint arXiv:2309.17453, 2023.
  • Xiong et al. (2023) Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oğuz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, and Hao Ma. Effective long-context scaling of foundation models. In North American Chapter of the Association for Computational Linguistics, 2023.
  • Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, and et al. Qwen2 technical report, 2024. URL https://arxiv.org/abs/2407.10671.
  • Yen et al. (2024) Howard Yen, Tianyu Gao, Minmin Hou, Ke Ding, Daniel Fleischer, Peter Izasak, Moshe Wasserblat, and Danqi Chen. Helmet: How to evaluate long-context language models effectively and thoroughly. arXiv preprint arXiv:2410.02694, 2024.
  • Yin et al. (2024) Qingyu Yin, Xuzheng He, Xiang Zhuang, Yu Zhao, Jianhua Yao, Xiaoyu Shen, and Qiang Zhang. Stablemask: Refining causal masking in decoder-only transformer. arXiv preprint arXiv:2402.04779, 2024.
  • Zellers et al. (2019) Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019.
  • Zhang (2023) J. Zhang. Easycontext: Efficient and extensible long context language models. https://github.com/jzhang38/EasyContext, 2023. Accessed: 2024-09-16.
  • Zhang et al. (2024a) Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, and Juanzi Li. Longcite: Enabling llms to generate fine-grained citations in long-context qa. arXiv preprint arXiv:2409.02897, 2024a.
  • Zhang et al. (2024b) Xiao Zhang, Miao Li, and Ji Wu. Conditional language learning with context. arXiv preprint arXiv:2406.01976, 2024b.
  • Zhang et al. (2024c) Xinrong Zhang, Yingfa Chen, Shengding Hu, Zihang Xu, Junhao Chen, Moo Khai Hao, Xu Han, Zhen Leng Thai, Shuo Wang, Zhiyuan Liu, et al. inftybench: Extending long context evaluation beyond 100k tokens. arXiv preprint arXiv:2402.13718, 2024c.
  • Zhao et al. (2024a) Liang Zhao, Tianwen Wei, Liang Zeng, Cheng Cheng, Liu Yang, Peng Cheng, Lijie Wang, Chenxia Li, Xuejie Wu, Bo Zhu, et al. Longskywork: A training recipe for efficiently extending context length in large language models. arXiv preprint arXiv:2406.00605, 2024a.
  • Zhao et al. (2024b) Yu Zhao, Yuanbin Qu, Konrad Staniszewski, Szymon Tworkowski, Wei Liu, Piotr Miłoś, Yuxiang Wu, and Pasquale Minervini. Analysing the impact of sequence composition on language model pre-training. arXiv preprint arXiv:2402.13991, 2024b.

Appendix A Rotary Positional Embedding (RoPE) and Relative Positional Encoding

回転位置埋め込み(RoPE)は、注意機構内のクエリ(q𝑞qitalic_q)とキー(k𝑘kitalic_k)ベクトルを修正することにより、トランスフォーマーモデルに位置情報を注入する手法である。RoPEは以下のステップを通じて、モデルの位置関係捕捉能力を向上させる:

A.1 Mechanism of RoPE

  1. 1.

    2次元チャンクへの分割: クエリとキーベクトルは2次元のセグメントに分割される。この分割により、各次元のペアが独立して回転変換を受けることが可能となる。

  2. 2.

    回転変換の適用: 各2次元チャンクは、周波数パラメータθ𝜃\thetaitalic_θによって決定される角度で回転される。具体的には、i𝑖iitalic_i番目のチャンクに対して、回転行列Ri,θsubscript𝑅𝑖𝜃R_{i,\theta}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPTが適用される。これにより、トークンのシーケンス内の位置に基づいた位置情報が導入される。

i𝑖iitalic_i番目のチャンクの回転行列Ri,θsubscript𝑅𝑖𝜃R_{i,\theta}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPTは、個々の2次元回転行列で構成されるブロック対角行列として定義される。ここで、d𝑑ditalic_dは各ヘッドの隠れ次元数を表し、例えばLLaMA-2-7Bでは128である:

Ri,θ=[cos(iθ0)sin(iθ0)0000sin(iθ0)cos(iθ0)000000cos(iθ1)sin(iθ1)0000sin(iθ1)cos(iθ1)000000cos(iθd/21)sin(iθd/21)0000sin(iθd/21)cos(iθd/21)]subscript𝑅𝑖𝜃matrix𝑖subscript𝜃0𝑖subscript𝜃00000𝑖subscript𝜃0𝑖subscript𝜃0000000𝑖subscript𝜃1𝑖subscript𝜃10000𝑖subscript𝜃1𝑖subscript𝜃1000000𝑖subscript𝜃𝑑21𝑖subscript𝜃𝑑210000𝑖subscript𝜃𝑑21𝑖subscript𝜃𝑑21\displaystyle R_{i,\theta}=\begin{bmatrix}\cos(i\theta_{0})&-\sin(i\theta_{0})% &0&0&\cdots&0&0\\ \sin(i\theta_{0})&\cos(i\theta_{0})&0&0&\cdots&0&0\\ 0&0&\cos(i\theta_{1})&-\sin(i\theta_{1})&\cdots&0&0\\ 0&0&\sin(i\theta_{1})&\cos(i\theta_{1})&\cdots&0&0\\ \vdots&\vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\ 0&0&0&0&\cdots&\cos(i\theta_{d/2-1})&-\sin(i\theta_{d/2-1})\\ 0&0&0&0&\cdots&\sin(i\theta_{d/2-1})&\cos(i\theta_{d/2-1})\end{bmatrix}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT = [ start_ARG start_ROW start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL - roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL ⋯ end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL ⋯ end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) end_CELL start_CELL - roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) end_CELL start_CELL ⋯ end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) end_CELL start_CELL ⋯ end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL end_ROW start_ROW start_CELL ⋮ end_CELL start_CELL ⋮ end_CELL start_CELL ⋮ end_CELL start_CELL ⋮ end_CELL start_CELL ⋱ end_CELL start_CELL ⋮ end_CELL start_CELL ⋮ end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL ⋯ end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT italic_d / 2 - 1 end_POSTSUBSCRIPT ) end_CELL start_CELL - roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT italic_d / 2 - 1 end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL 0 end_CELL start_CELL ⋯ end_CELL start_CELL roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT italic_d / 2 - 1 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT italic_d / 2 - 1 end_POSTSUBSCRIPT ) end_CELL end_ROW end_ARG ] (6)

A.2 Incorporating RoPE into Attention Mechanism

注意機構において、ロジットはクエリとキーの類似性に基づいて計算される。RoPEを用いる場合、この計算には回転されたクエリとキーが以下のように使用される:

A(i,j)=(Ri,θqi)(Rj,θkj)=qiRi,θRj,θkjsubscript𝐴𝑖𝑗superscriptsubscript𝑅𝑖𝜃subscript𝑞𝑖topsubscript𝑅𝑗𝜃subscript𝑘𝑗superscriptsubscript𝑞𝑖topsuperscriptsubscript𝑅𝑖𝜃topsubscript𝑅𝑗𝜃subscript𝑘𝑗\displaystyle A_{(i,j)}=\left(R_{i,\theta}\,q_{i}\right)^{\top}\left(R_{j,% \theta}\,k_{j}\right)=q_{i}^{\top}R_{i,\theta}^{\top}R_{j,\theta}k_{j}italic_A start_POSTSUBSCRIPT ( italic_i , italic_j ) end_POSTSUBSCRIPT = ( italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT ( italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT ) = italic_q start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPT italic_k start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT (7)

A.3 Encoding Relative Positional Information

RoPEが相対的位置情報をどのようにエンコードするかを説明するために、回転行列の積Ri,θRj,θsuperscriptsubscript𝑅𝑖𝜃topsubscript𝑅𝑗𝜃R_{i,\theta}^{\top}R_{j,\theta}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPTを考察する。角度の差のサインとコサインに関する三角関数の恒等式を用いると:

sin(αβ)=sinαcosβcosαsinβ𝛼𝛽𝛼𝛽𝛼𝛽\sin(\alpha-\beta)=\sin\alpha\cos\beta-\cos\alpha\sin\betaroman_sin ( italic_α - italic_β ) = roman_sin italic_α roman_cos italic_β - roman_cos italic_α roman_sin italic_β
cos(αβ)=cosαcosβ+sinαsinβ𝛼𝛽𝛼𝛽𝛼𝛽\cos(\alpha-\beta)=\cos\alpha\cos\beta+\sin\alpha\sin\betaroman_cos ( italic_α - italic_β ) = roman_cos italic_α roman_cos italic_β + roman_sin italic_α roman_sin italic_β

単一の2次元ブロックに焦点を当てると、積は以下のように計算される:

Ri,θRj,θsuperscriptsubscript𝑅𝑖𝜃topsubscript𝑅𝑗𝜃\displaystyle R_{i,\theta}^{\top}R_{j,\theta}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPT =[cos(iθ0)sin(iθ0)sin(iθ0)cos(iθ0)][cos(jθ0)sin(jθ0)sin(jθ0)cos(jθ0)]absentmatrix𝑖subscript𝜃0𝑖subscript𝜃0𝑖subscript𝜃0𝑖subscript𝜃0matrix𝑗subscript𝜃0𝑗subscript𝜃0𝑗subscript𝜃0𝑗subscript𝜃0\displaystyle=\begin{bmatrix}\cos(i\theta_{0})&\sin(i\theta_{0})\\ -\sin(i\theta_{0})&\cos(i\theta_{0})\end{bmatrix}\begin{bmatrix}\cos(j\theta_{% 0})&-\sin(j\theta_{0})\\ \sin(j\theta_{0})&\cos(j\theta_{0})\end{bmatrix}= [ start_ARG start_ROW start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL - roman_sin ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( italic_i italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW end_ARG ] [ start_ARG start_ROW start_CELL roman_cos ( italic_j italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL - roman_sin ( italic_j italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL roman_sin ( italic_j italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( italic_j italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW end_ARG ]
=[cos((ij)θ0)sin((ij)θ0)sin((ij)θ0)cos((ij)θ0)]absentmatrix𝑖𝑗subscript𝜃0𝑖𝑗subscript𝜃0𝑖𝑗subscript𝜃0𝑖𝑗subscript𝜃0\displaystyle=\begin{bmatrix}\cos\left((i-j)\theta_{0}\right)&\sin\left((i-j)% \theta_{0}\right)\\ -\sin\left((i-j)\theta_{0}\right)&\cos\left((i-j)\theta_{0}\right)\end{bmatrix}= [ start_ARG start_ROW start_CELL roman_cos ( ( italic_i - italic_j ) italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_sin ( ( italic_i - italic_j ) italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW start_ROW start_CELL - roman_sin ( ( italic_i - italic_j ) italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL start_CELL roman_cos ( ( italic_i - italic_j ) italic_θ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ) end_CELL end_ROW end_ARG ]
=Rm,θabsentsuperscriptsubscript𝑅𝑚𝜃top\displaystyle=R_{m,\theta}^{\top}= italic_R start_POSTSUBSCRIPT italic_m , italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT

ここで、m=ij𝑚𝑖𝑗m=i-jitalic_m = italic_i - italic_jはクエリとキーの間の相対位置を表している。この導出は、積Ri,θRj,θsuperscriptsubscript𝑅𝑖𝜃topsubscript𝑅𝑗𝜃R_{i,\theta}^{\top}R_{j,\theta}italic_R start_POSTSUBSCRIPT italic_i , italic_θ end_POSTSUBSCRIPT start_POSTSUPERSCRIPT ⊤ end_POSTSUPERSCRIPT italic_R start_POSTSUBSCRIPT italic_j , italic_θ end_POSTSUBSCRIPTi𝑖iitalic_ij𝑗jitalic_jの個々の絶対位置ではなく、相対位置(ij)𝑖𝑗(i-j)( italic_i - italic_j )のみに依存することを示している。

Appendix B Analyses of Attention Discrepancies with RoPE under BFloat16

2節では、主に複数のシーケンスにわたって平均化された注意力の差異を測定した。より詳細な視点を提供するために、個々のサンプルの可視化を提示する。図7(左)は、5つのサンプルの注意力スコアの差異を示しており、図1(左)の青線で表される平均化されたバージョンと比較して、詳細な視点を提供している。

7(左)に示されているように、注意力スコアの差異は異なるサンプル間で非常に一貫している。曲線はほぼ同一であり、各サンプルにわずかなバイアスがあるだけである。開始時の差異(Δ1=0subscriptΔ10\Delta_{1}=0roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0およびΔ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16)が与えられれば、様々なΔ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT値に対する注意力の差異を正確に予測することができる。

さらに、第2節ではΔ2=16subscriptΔ216\Delta_{2}=16roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT = 16を固定しΔ1subscriptΔ1\Delta_{1}roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTを変化させて注意力の差異を研究することに焦点を当てているが、我々は分析を拡張し、Δ1=0subscriptΔ10\Delta_{1}=0roman_Δ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT = 0を固定してΔ2subscriptΔ2\Delta_{2}roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTを変化させた。結果は図7(右)にまとめられている。Δ2subscriptΔ2\Delta_{2}roman_Δ start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPTが変化するにつれて、注意力の差異曲線がx軸に沿ってシフトすることが観察される。これらの発見は、注意力スコアの差異が高度に予測可能であることを示している。

最初のトークンの位置エンコーディングが大きく逸脱しているという我々の以前の観察に基づき、後続のトークンの位置参照を確立する上でのその役割について興味を持った。経験的な発見から、我々は最初のトークンの位置IDが絶対位置として機能するという仮説を立てた。この仮説についてのより詳細な議論は今後の研究で探求される予定である。

Refer to caption
図7: BFloat16における個々のサンプルの注意力スコアの差異の可視化。

Appendix C Data Statistics

我々は、データセットにおける各ドメインの混合比率とトークン寄与度を提示する。混合比率は、各ドメインのシーケンス数を総シーケンス数で除して算出される。トークン比率は、各ドメインのトークン数をデータセットの総トークン数で除して決定される。

表9: ドメインおよびトークン分布
C4 Arxiv Github StackExchange CommonCrawl Wikipedia Books
Up-sampled Data Mixture
128K Mixture Ratio 52.34% 1.01% 3.68% 4.56% 33.40% 4.79% 0.21%
Token Ratio 19.53% 5.86% 6.61% 1.64% 58.14% 3.51% 4.69%
Original SlimPajama
128K Mixture Ratio 55.32% 0.30% 3.65% 5.06% 31.01% 4.59% 0.06%
Token Ratio 26.50% 4.64% 5.05% 3.18% 53.42% 3.34% 3.88%
64K Mixture Ratio 55.05% 0.40% 3.66% 4.97% 31.23% 4.58% 0.10%
Token Ratio 25.43% 5.22% 5.05% 2.95% 54.24% 3.24% 3.86%

参考として、元のSlimPajamaのトークン混合比率は以下の通りである:データセットは82%のウェブデータ(67%がCommonCrawl、15%がC4)、4.5%のコード(GitHub)、4.5%のWikipedia、4.5%の書籍、2.5%のArXiv、2.0%のStackExchangeで構成されている。このデータセットはLLaMAモデルの事前学習に使用されたものと非常に類似しているため、継続的な事前学習中の分布シフトについての懸念は少ない。したがって、多くの最近の研究がこれを利用している。

9に示されている我々が訓練に使用したデータを比較すると、いくつかの重要な違いが観察される:

  1. 1.

    C4データセット: 我々のアップサンプリングされたデータ混合物は、C4の混合比率がSlimPajamaと比べてわずかに低く(52.34%対55.32%)なっているが、トークン比率の減少はより顕著である(19.53%対26.50%)。これは、C4からのシーケンス数は同程度であるものの、我々のデータセットでは平均的に短くなっていることを示している。

  2. 2.

    CommonCrawl: 我々はCommonCrawlの混合比率を増加させ(33.40%対31.01%)、より高いトークン比率(58.14%対53.42%)を観察した。これは、我々のデータセットにおけるCommonCrawlのシーケンスがより多数であるだけでなく、より長くなっており、総トークン数に大きく寄与していることを示唆している。

  3. 3.

    ArXivと書籍: 我々のアップサンプリングされた混合物では、ArXivと書籍の表現が強化されている。ArXivの混合比率は0.30%から1.01%に、トークン比率は4.64%から5.86%に増加した。同様に、書籍の混合比率は0.06%から0.21%に、トークン比率は3.88%から4.69%に増加した。これらの増加は、データセットにより多くの学術的および文学的コンテンツを豊富に含めることを目的としている。

  4. 4.

    StackExchangeとWikipedia: StackExchangeとWikipediaの割合は、2つのデータセット間で比較的一貫しており、コミュニティ主導の知識と百科事典的知識の安定した表現を確保している。

  5. 5.

    GitHub(コードデータ): GitHubの混合比率は類似している(我々のデータセットで3.68%対SlimPajamaの3.65%)が、トークン比率は我々のデータセットでわずかに高く(6.61%対5.05%)、コード理解タスクに有益な可能性のあるより長いコードシーケンスを示している。

全体として、我々のアップサンプリングされたデータ混合物は、CommonCrawlからのより長いシーケンスに重点を置き、ArXivや書籍のような過小表現されているドメインをアップサンプリングすることでコンテンツの多様性を高めている。この再調整は、モデルが様々なコンテンツタイプにわたって一般化する能力を向上させ、特定のドメインからの知識を必要とするタスクでのパフォーマンスを改善することを目的としている。

Refer to caption
図8: 訓練データのシーケンス長分布

Appendix D LLaMA-2-7B RULER Performance

Model

NIAH Single 1

NIAH Single 2

NIAH Single 3

NIAH Multikey 1

NIAH Multikey 2

NIAH Multikey 3

NIAH Multivalue

NIAH Multiquery

VT

CWE

FWE

QA 1

QA 2

Llama2 7B 100.0 100.0 99.8 97.2 87.8 44.0 99.1 99.35 59.0 24.46 91.73 61.2 43.0
+ Chat 95.2 100.0 99.8 93.2 90.0 70.2 95.8 98.7 88.4 34.26 85.93 64.8 39.4
+ Yarn 64K 73.0 24.4 8.0 18.0 5.8 0.8 5.9 6.35 54.2 18.16 57.8 38.6 27.6
+ Chat + Yarn 64K 67.4 48.8 32.4 30.2 16.4 4.8 48.0 34.75 54.16 43.48 82.07 41.2 25.0
表10: 4,00040004,0004 , 000のコンテキスト長における様々なタスクに対する異なるモデルの結果。

10では、全てのモデルに対して基本テンプレートを使用している。Hsieh et al. (2024)で報告された結果と比較すると、Llama 2 7Bの共通語抽出(CWE)タスクにおける性能が最適ではないことが観察された。これは、コンテキスト長を4,000(4,096未満)に設定した場合、例題タスクが提供されるためである(RULERのscripts/data/synthetic/common_words_extraction.py内のgenerate_input_output関数を参照)Hsieh et al. (2024)。表11に示すように、コンテキスト長を4,09640964,0964 , 096に設定すると、報告された結果を再現できる。例題の含有がLlama 2 7Bモデルの単語数の正確なカウント能力を妨げており、CWEタスクがLlama 2 7Bの評価に対して不安定であることを反映している。したがって、我々は長文コンテキスト評価からこのタスクを除外した。

さらに、大規模言語モデルの継続的な訓練は主に新しい能力を導入するのではなく、より長いコンテキストを扱う能力を向上させるという我々の仮説に基づき、NIAH Multikey 3、QA 1、およびQA 2タスクを評価から除外した。この決定は、事前訓練のコンテキスト長内でさえ、LLaMA 2 7Bがこれらのタスクを効果的に解決できないという観察に基づいている。

4,000 4,096
LLaMA-2-7B 24.46 76.8
表11: 異なるコンテキスト長におけるLLaMA-2-7Bの共通語抽出(CWE)の性能。

Appendix E Longbench full result

Code Completion ICL Multi-Doc QA Single-Doc QA Summarization Synthetic
SlimPajama-64K
Full Attention 60.52 62.51 9.68 17.34 16.09 2.87
Cross-Doc Attention 62.95 62.79 9.51 16.82 16.73 2.94
   - reset 62.76 63.76 9.30 16.40 14.61 3.74
AnchorAttention 62.04 65.38 9.72 18.60 17.56 4.24
   - tag 63.53 66.02 9.51 18.28 15.30 5.24
SlimPajama-128K
Full Attention 54.17 50.72 6.36 16.43 13.30 2.04
Cross-Doc Attention 54.59 51.22 6.42 15.59 13.92 3.63
   - reset 52.51 50.07 6.30 16.64 14.45 4.18
AnchorAttention 54.14 51.85 6.32 17.74 12.67 3.89
   - tag 55.81 51.89 5.93 17.67 12.43 3.41
UpSampledMix-128K
Full Attention 53.13 48.96 6.12 14.66 12.77 4.13
Cross-Doc Attention 54.16 49.51 5.72 14.62 14.38 2.57
   - reset 54.29 50.18 5.57 14.30 15.23 2.55
AnchorAttention 53.90 50.17 6.30 18.29 13.78 6.13
   - tag 55.13 49.70 5.65 16.90 15.53 4.20
表12: 異なる注意機構とデータセットにおけるパフォーマンス指標。