arXiv	https://arxiv.org/abs/2412.11605
論文のライセンス	http://creativecommons.org/licenses/by/4.0/

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Jiale Cheng^1,2 , Xiao Liu^2,3¹¹footnotemark: 1 , Cunxiang Wang^2,3 , Xiaotao Gu² , Yida Lu^1,2²²footnotemark: 2 , Dan Zhang³ ,
Yuxiao Dong³ , Jie Tang³ , Hongning Wang¹ , Minlie Huang¹
¹The Conversational Artificial Intelligence (CoAI) Group, Tsinghua University
²Zhipu AI
³The Knowledge Engineering Group (KEG), Tsinghua University
[email protected], [email protected]
Equal contributions.Work done when JC and YL interned at Zhipu AI.Corresponding author

Abstract

指示に従う能力は言語モデルの基本的な能力であり、モデルが指示の中で最も微妙な要求さえも認識し、それを出力に正確に反映することが求められる。このような能力は選好学習に適しており、しばしばそれによって最適化される。しかし、既存の手法では、選好ペアを作成する際にモデルから複数の独立した応答を直接サンプリングすることが多い。このような方法は、指示が正確に従われているかどうかとは無関係な内容の変動（例えば、同じ意味に関する異なる表現）を導入し、指示に従うことの改善につながる重要な差異を認識するようモデルに教えるという目標を妨げる可能性がある。これを踏まえ、我々はSPaRを導入する。これは、木探索による自己改良を統合した自己対戦フレームワークであり、注意を逸らすものがない有効で比較可能な選好ペアを生成する。自己対戦により、LLMは木探索戦略を用いて、不必要な変動を最小限に抑えつつ、指示に関して以前の応答を改良する。我々の実験では、SPaRによって導かれた3回の反復で訓練されたLLaMA3-8Bモデルが、一般的な能力を失うことなくIFEvalベンチマークでGPT-4-Turboを上回ることを示している。さらに、SPaRは有望なスケーラビリティと転移可能性を示し、GLM-4-9BやLLaMA3-70Bなどのモデルを大幅に強化する。我々はまた、木探索における推論のスケーリングがモデルのパフォーマンスにどのように影響するかを特定した。本稿のコードとデータはhttps://github.com/thu-coai/SPaRで公開されている。

1 Introduction

これまで、大規模言語モデル（LLM）は幅広いタスクで大きな成功を収めてきた (Brown et al., 2020; Zeng et al., 2022; Chowdhery et al., 2023; Touvron et al., 2023; GLM et al., 2024)。 LLMが様々なシナリオに適用されるにつれ、その指示追従能力が重要になってきている (Ouyang et al., 2022; Bai et al., 2022)。特に、複数の制約を持つ指示に従う能力が重要である (Zeng et al., 2023; Zhou et al., 2023; Jiang et al., 2023b)。指示を正確に追従できないことは、安全性の問題にもつながる可能性がある (Ruan et al., 2023)。

指示追従タスクの成功を決定づけるのは微妙なニュアンスである (Zhou et al., 2023)。そのため、選好学習 (Rafailov et al., 2024; Hou et al., 2024) が適切な解決策となる。しかし、既存の手法は通常、対象モデルから複数の独立した応答をサンプリングする (Yuan et al., 2024; Wu et al., 2024; Dong et al., 2024)。これにより、指示が正しく追従されたかどうかとは無関係な変動が意図せずに導入されてしまう。図1に示すように、「物語を書き、The devil is in the detailsで終わらせる」という指示が与えられた場合、 LLMから複数の独立した応答をサンプリングすると、赤ずきんとヘンゼルとグレーテルのように全く異なる物語が生成される可能性がある。このような物語の内容の変動は、モデルが重要な要件である指定された終わりの文を実現する方法を学習する能力を妨げ、最終的に選好ペア内の比較を誤らせる可能性がある。したがって、選好ペアから効果的に学習するためには、これらの外的要因を排除し、指示追従の成功を左右する重要な差異に焦点を当てる必要がある。

本稿において、我々はSPaRを提案する。これは、大規模言語モデル（LLM）の指示遵守能力を向上させるための、木探索による洗練を統合した自己対戦手法である。その核心は、構造化された木探索を用いて自己対戦を行うことで、LLMに指示遵守のニュアンスを反復的に学習させることにある。自己対戦の各ターンにおいて、LLMは俳優と洗練者という二つの異なる役割を担う。これらは共に同一のモデルから初期化される。俳優は複雑な指示を実行し、洗練者は俳優の応答を批評し洗練する。反復過程において、我々はまず、洗練者の判断により指示を正確に遵守できていないと判定された俳優の応答を収集する。これらの失敗した応答を起点として、我々は洗練のための木探索アルゴリズムを適用する。これにより、前回のターンに対する一貫した改善が保証され、モデル訓練のための有効な比較対象が自然に生成される。

我々は、LLaMA3シリーズ(MetaAI, 2024)、GLM-4-9B (GLM et al., 2024)、およびMistral-7B-Instruct (Jiang et al., 2023a)など、複数のLLMに対して複数回の反復実験を行った。広範な実験を通じて、我々はモデルの指示追従能力が大幅に向上し、自己報酬(Yuan et al., 2024)やメタ報酬(Wu et al., 2024)などの他の自己改善手法を上回ることを実証した。特筆すべきは、3回の反復後、SPaRがIFEvalベンチマーク(Zhou et al., 2023)においてLLaMA3-8B-InstructをGPT-4-Turboを超えるレベルまで改善したことである。さらに、推論時にツリー探索による改良を統合することでテスト時の計算量をスケールアップすると、指示追従の品質をさらに向上させることができる。加えて、数回の反復を経て、改良器の判断能力と改良能力が蒸留されたLLMと同等かそれ以上になることを発見した。これは、初期のブートストラップデータに制限されることなく、継続的な自己改善の大きな可能性を示している。アブレーション研究により、我々のフレームワーク内の各コンポーネントの重要性が実証された。重要なことに、我々の手法は一般的なベンチマークにおけるパフォーマンスを低下させない。要約すると、我々の貢献は以下の通りである：

•

我々は、独立にサンプリングされた応答から得られる選好ペアには、しばしば干渉要因が含まれており、これが指示追従を改善するための選好学習を妨げていることを明らかにした。その結果、効果的な解決策には、このような干渉を最小限に抑え、指示追従の成功に寄与する主要な差異を強調する必要がある。
•

我々は、指示追従タスクにおいて継続的な自己改善を可能にする新しい自己対戦フレームワークSPaRを導入した。3回の反復を通じて、我々の手法はLLaMA3-8B-InstructをGPT4レベルのパフォーマンスにまで引き上げ、LLaMA3-70B-Instructを効果的に強化する。
•

我々は、43Kの複雑な指示追従プロンプトを含む高品質なデータセットと、LLMの指示追従能力を向上させることができるSFTデータセットを構築した。

2 Method

Refer to caption — 図2: SPaRの反復学習フレームワーク。イテレーション $t$ において、リファイナー $R_{t}$ はまず、アクター $M_{t}$ から生成された応答を判断し、ネガティブデータを収集する。次に、ツリー探索アルゴリズムを用いてこれらの不完全な応答を改善する。最後に、上記のステップから得られたデータを使用して、次のイテレーションに向けてアクターとリファイナーを最適化し、継続的な自己改善を目指す。

我々はSPaRを紹介する。これは自己対戦を通じて指示に従うタスクの自己改善を行うための自動化された拡張可能なアプローチである。その核心的なアイデアは、無関係な変動を最小限に抑えた対応する応答のペアを作成することにより、指示に従うことの成功を示す重要な差異を浮き彫りにすることである。

2.1 Overall Framework

SPaRの全体的フレームワークを図2に示す。簡潔に述べると、我々のフレームワークは同一のベースモデルから初期化されたアクターモデルとリファイナーモデルを含む。アクターは与えられた指示に対して応答を生成し、リファイナーはこれらの応答を判断し改善する。この応答生成、判断、改善を含む反復的な自己対戦プロセスが、継続的な自己改善を促進する。

形式的には、各反復において、プロンプトセットからの指示 $x$ が与えられると、アクターは応答 $y$ を生成する。リファイナーは指示に正確に従っていない応答を特定し、これを否定的応答と呼ぶ。我々の目的は、否定的応答（図2では $y_{0}$ で表される）を正しい応答（図では $y_{8}$ で表される）に改善することである。これらの生成された改善ペア（例： $(x,y_{8}>y_{0})$ ）を収集し、直接選好最適化（DPO）(Rafailov et al., 2024)を用いてアクターを最適化するために使用する。同時に、棄却サンプリング微調整（RFT）(Yuan et al., 2023)を適用してリファイナーを改善する。このプロセスにより、両モデルは次の自己改善の反復に備える。

この反復プロセスにおいて、我々は2つの主要な課題に直面する：複雑な指示追従データの不足と、成功裏に改善を達成することの困難さである。高品質で多制約の指示追従データセットの不足に対処するため、我々は分類法に基づくアプローチを用いて複雑な指示を生成し、対応するSFTデータセットを作成してアクターとリファイナーモデルを初期化する（§2.2）。否定的応答の改善における高い成功率を確保するため、我々は改善経路を体系的に探索し、その後のトレーニングを促進するツリー探索戦略を採用する（§2.3）。

2.2 Data Construction

2.2.1 Prompt Creation

指示に従うタスク、特に複数の制約を持つタスクに関する高品質なデータが不足していることを踏まえ、我々は指示に従うプロンプトの高品質なデータセットを作成することから始める。

Seed Prompts.

データセットの品質と多様性を確保し、不十分な多様性やモデル崩壊などの問題を防ぐため(Liu et al., 2024; Shumailov et al., 2024)、我々は1000万件の高品質な会話を含むInfinity-Instructデータセット(Zhao et al., 2024)から派生したシードプロンプトのセットを使用する。長さ、キーワード、自己BLEUに基づくルールベースのフィルタリングを適用した後、約5万件のシードプロンプトを得る。

Taxonomy-based Prompt Construction.

人間の介入なしに構築された複雑なプロンプトは、追加される制約の種類が不均等に分布する傾向があるため、多様性に乏しくなりがちである(Sun et al., 2024)。そのため、我々は制約の種類を包括的かつバランスの取れたものにするために、分類法に基づくメカニズムを採用する。指示に従う制約の分類法はCheng et al. (2024)から派生し、さらに包括的になるよう改良されている。

制約の分類法を構築した後、我々はそれを用いてシードプロンプトに基づいて複雑な指示に従うタスクを構築する。主要な制約タイプをサンプリングし、強力なLLMを用いて元のプロンプトをより複雑にするためにいくつかの他の制約を追加する。さらに、我々は強力なLLMを活用して生成されたプロンプトの妥当性を評価し、制約が互いに矛盾したり、元のタスクと不合理なシナリオを作り出したりしないようにする。詳細な分類法とプロンプトは付録Aに記載されている。

2.2.2 Actor and Refiner Initialization

分類法に基づくプロンプト構築により、約4.3万件のプロンプトが得られる。我々は8千件のプロンプトをアクターの初期化に、別の5千件を改良器に使用し、3万件を後のセルフプレイトレーニングのために保存する。

Actor Data Creation.

強力な指示追従能力でアクターモデルを立ち上げるために、我々はまずこれらの複雑なプロンプトに対する強力なLLMの応答を収集し、それによってアクターモデルの教師あり微調整（SFT）データ $(x,y)\in D_{\text{Actor}}$ を生成する。ここで、 $x$ は複雑な指示であり、 $y$ は強力なLLMの応答である。その後、ベースモデルを微調整して初期アクター $M_{0}$ を得る。

Refiner Data Creation.

強力な判断と改良能力で改良器モデルを立ち上げるために、我々は初期アクター $M_{0}$ から応答をサンプリングする。次に、強力なLLMからの判断を収集してデータセット $(x,y,j)\in D_{\text{JSFT}}$ を形成する。指示に正確に従っていないと判断された応答を収集し、それらを負の応答と呼ぶ。これらの負の応答に対して、我々は強力なLLMを使用して、無関係な変更を避けるために最小限の修正で修正する。このようにして、改良データセット $(x,y_{\text{negative}},j,y_{\text{refined}})\in D_{\text{RSFT}}$ を得る。改良器は $D_{\text{Refiner}}=D_{\text{JSFT}}\cup D_{\text{RSFT}}$ でトレーニングされ、初期改良器 $R_{0}$ が作成される。

Training Strategy.

アクターモデルと改良器モデルの両方に対して、我々は以下の損失関数を用いた標準的な教師あり微調整を使用する：

\mathcal{L}=-\frac{1}{N}\sum_{i=1}^{N}\text{log}P(r_{i}|q,r_{<i}),

(1)

ここで、 $q$ は入力を表し、 $r$ は目標応答を示し、 $N$ は $r$ の長さを表す。アクターのトレーニングでは、入力 $q=x$ と目標 $r=y$ を使用する。改良器については、 $D_{\text{JSFT}}$ に対して入力 $q=(x,y)$ と目標 $r=j$ を使用し、 $D_{\text{RSFT}}$ に対して入力 $q=(x,y_{\text{negative}},j)$ と目標 $r=y_{\text{refined}}$ を使用する。

2.3 Tree-Search Integrated Self-Play Training

アクターモデルとリファイナーモデルの初期化後、我々は継続的な自己改善のための反復プロセスを開始する。各反復において、まず指示に正確に従えなかった応答からなる負例データを収集する（§2.3.1）。次に、木探索アルゴリズムを用いて負例応答を改善し（§2.3.2）、次の反復におけるアクター（§2.3.3）とリファイナー（§2.3.4）の訓練データを形成する。この反復的な自己対戦パイプラインにより、両モデルを継続的に改善することが可能となる。

2.3.1 Negative Data Collection

各プロンプト $x$ に対し、まずアクターモデルから $K$ 個の応答 $\{y_{1},y_{2},\ldots,y_{K}\}$ をサンプリングする。このステップにより、後続の学習を支援するのに十分な負例応答が確保される。次に、各プロンプトと応答のペアに対し、リファイナーを用いて判断を生成する。この判断は、応答が指示に従っているかどうかを示すラベルと、その評価に関する説明の2つの部分から構成される。この判断をより正確にするため、我々は自己一貫性メカニズム(Wang et al., 2022)を組み込んでおり、これは後続の改善プロセスにも適用される。具体的には、リファイナーから複数の判断を得て、多数決によって最終的なラベルを決定する。詳細は付録D.4に記載されている。多数決の後、投票されたラベルに一致する判断をランダムに1つ選択し、最終的な判断とする。このプロセスにより、指示に正確に従わない応答を引き出す難しいプロンプトを特定し、 $(x,y_{\text{negative}},j)$ の形式のタプルを得ることができる。ここで、 $y_{\text{negative}}$ は不正確な応答であり、 $j$ はそれに対応する判断である。

2.3.2 Tree-Search Refinement

これらの負例を収集した後、核心となるステップは応答を改善して選好ペアを形成することである。これらの自己改善されたペアは、指示に従うタスクの成功を決定づける微妙な差異を強調するために重要であり、効果的な学習を促進する。直接的な改善では成功率が低くなることが多いため、我々は木探索アプローチを採用する。この改善のために、幅優先探索（BFS）と深さ優先探索（DFS）の両方の戦略を実装する。これらの手法の詳細なアルゴリズムは付録Bに記載されている。

我々のプロセスを説明するために、BFSを例にとり、図2にその手順を示す。不正確な指示-応答ペアとその判断をルートノードとして開始し、正しい応答が見つかるまで探索木をレベルごとに拡張する。各中間ノードにおいて、現在の応答に対する潜在的な改善を生成し、リファイナーを用いてその正確さを評価する。生成される改善の数は分岐の数に対応する。具体的には、木のレベルにおいて、リファイナーは： 1）現在のレベルの各ノードに対する潜在的な改善を生成し、2）これらの改善の正確さを判断する。これにより、新しい応答とそれに対応する判断を持つ子ノードのセットが作成される。探索プロセスは、 $(x,y_{\text{negative}},y_{\text{refined}})$ のタプルを得るまで続く。ここで、 $y_{\text{refined}}$ は新たに改善された正しい応答である。重要なことに、SPaRは木探索と自己改善の両方の長所を組み合わせ、複数の改善経路を探索しながら干渉要因を最小限に抑え、効果的な選好学習データを生成する。

2.3.3 Actor Training

アクターモデルを最適化するために、我々はDPOを用いて改善ペアを選好学習に活用する。反復 $t$ において、我々はアクターモデル $M_{t}$ を改善ペア $(y_{\text{negative}},y_{\text{refined}})$ で訓練し、 $y_{\text{negative}}$ を拒否された応答（ $y_{l}$ ）として、 $y_{\text{refined}}$ を選択された応答（ $y_{w}$ ）として扱う。訓練データセットは $D_{\text{dpo}}^{t}$ と表記され、DPO損失は以下のように記述される：

\mathcal{L}_{\text{DPO}}(\pi_{\theta}^{\text{t}};\pi_{\text{ref}})=-\mathbb{E}% _{(x,y_{w},y_{l})\sim D_{\text{dpo}}^{t}}\left[\log\sigma\left(\beta\log\frac{% \pi_{\theta}^{\text{t}}(y_{w}|x)}{\pi_{\text{ref}}(y_{w}|x)}-\beta\log\frac{% \pi_{\theta}^{\text{t}}(y_{l}|x)}{\pi_{\text{ref}}(y_{l}|x)}\right)\right]

(2)

ここで、 $\pi_{\theta}^{\text{t}}$ はアクターモデル $M_{t}$ を表し、参照モデル $\pi_{ref}$ は $M_{t}$ で初期化され、訓練プロセス中は固定されたままである。これにより、次の反復のための新しいアクターモデル $M_{t+1}$ が得られる。

2.3.4 Refiner Training

リファイナーの入力はテンプレート化されているため、我々はRFTを用いて新しいリファイナー $R_{t+1}$ を得る。 RFT訓練データは、リファイナーの対応する能力を向上させるための改善データと判断データの2つの要素から構成される。

Refinement Training Data.

改善訓練データは、不正確な応答を改善するプロセスを捉えたタプルで構成される。木探索ベースの改善ステップから得られた各不正確な応答に対して、我々は $(x,y_{p},j_{p},y_{\text{refined}})$ の形式のタプルを収集する。ここで、 $(x,y_{p},j_{p})$ は改善木における最終的な正しい応答の親ノードを表し、 $y_{\text{refined}}$ は正しく改善された応答である。

Judgment Training Data.

判断訓練データは、負例データ収集と木探索プロセスのノードの両方から導出される。このデータセットは $(x,y_{i},j_{i})$ の形式のタプルで構成される。ここで、 $x$ はプロンプト、 $y_{i}$ は $x$ に対する応答、 $j_{i}$ は多数決と一致する判断である。

次に、構築された訓練データを用いて教師あり微調整を行う。改善データ $D_{\text{refine}}^{t}$ に対しては、入力 $q=(x,y_{p},j_{p})$ とターゲット $r=y_{\text{refined}}$ を持つタプル $(x,y_{p},j_{p},y_{\text{refined}})$ を使用する。判断データ $D_{\text{judge}}^{t}$ に対しては、入力 $q=(x,y_{i})$ とターゲット $r=j_{i}$ を持つタプル $(x,y_{i},j_{i})$ を使用する。教師あり微調整の損失は式(1)で与えられる。木探索ベースの自己改善戦略を用いたこの自己対戦訓練プロセスを採用することで、SPaRはアクターモデルとリファイナーモデルの両方を反復的に強化し、指示に従うタスクにおける継続的な自己改善を目指す。

3 Experiments

3.1 Experiment Setup

Backbone Models.

我々は、いくつかの人気のあるLLMで実験を行った：

•

LLaMA3シリーズ (MetaAI, 2024) は、そのサイズにおいて最高のパフォーマンスを示すモデルであり、オープンソースLLMの中でトップクラスの指示追従能力を示している。
•

GLM-4-9B-Chat (GLM et al., 2024) は指示追従タスクに優れており、10Bパラメータ未満で競争力のあるパフォーマンスを提供している。
•

Mistral-7B-Instruct (Jiang et al., 2023a) は最も人気のあるLLMの1つであり、幅広いタスクにわたって良好なパフォーマンスを示している。

Settings.

本稿では、自己対戦方式でLLMの指示追従能力を向上させることに焦点を当てている。我々は、10Bパラメータ未満のモデルをアクターモデルとリファイナーモデルとしてブートストラップするためにSFTを使用する。より高度なLLaMA3-70B-Instructについては、両方の役割に直接使用する。その後、我々の生成データセットから各イテレーションで10kのプロンプトを使用して、3回のイテレーションの自己対戦訓練を実行する。各イテレーションでは、アクターにDPOを、リファイナーにRFTを適用する。訓練されたLLaMA3-8B-InstructをSPaR-8B、LLaMA3-70B-InstructをSPaR-70B、GLM-4-9B-ChatをSPaR-9B、Mistral-7B-InstructをSPaR-7Bと呼ぶ。より詳細な実装の詳細は付録Cに記載されている。

Baselines.

我々の手法を、以下を含む5つの人気のある自己改善アプローチと比較する：

•

AutoIF (Dong et al., 2024) は、蒸留と自己進化の両方の設定で指示追従能力を向上させるために、コードフィードバックとオンラインDPO訓練を組み込んでいる。
•

SELF (Lu et al., 2023) は、反復的な自己改善を達成するために、言語フィードバックを活用して応答生成を導くことを提案している。
•

Self-rewarding (Yuan et al., 2024) は、報酬モデルとポリシーモデルを組み合わせて、アラインメント能力を同時に向上させることを提案している。
•

Meta-rewarding (Wu et al., 2024) は、self-rewardingフレームワークを基に、判断能力の限界に対処するためにメタ判断者を導入している。
•

Humpback (Li et al., 2023a) は、ウェブリソースを使用して高品質なデータを合成するための指示生成モデルの訓練を提案している。

3.2 Evaluation Benchmarks

我々のフレームワーク内でアクターとリファイナーの両方が継続的に進化するため、両者の能力を包括的に評価することが極めて重要である。

Actor’s Instruction-following Capability.

アクターの指示遵守能力を評価するために、我々は広く使用されている2つのベンチマーク、IFEval (Zhou et al., 2023) とFollowBench (Jiang et al., 2023b) に依拠している。 IFEvalは、コードベースの評価のために特別に設計された541の検証可能な指示を提供している。これらの指示は、キーワード頻度や単語数などのタスクを含む25の検証可能なタイプをカバーしている。一方、FollowBenchは、より主観的な制約の5つのカテゴリー（内容、状況、スタイル、形式、例）を包含している。このデータセットは、5つの難易度レベルにわたる820の入念に選定された指示を特徴とし、ルールベースとLLMを審判として使用するハイブリッド評価アプローチを採用している。

Refiner’s Judgment and Refinement Capability.

リファイナーの判断能力を評価するために、我々はLLMBar (Zeng et al., 2023) を使用する。これは指示遵守タスクの文脈におけるLLMの評価能力を測定するために設計されたデータセットである。LLMBarには419の指示-応答ペアが含まれており、自然と敵対的の2つのサブセットに分類されている。元々、このタスクは成功した応答と失敗した応答を識別するためのペアワイズ比較を含んでいた。我々はこれを一点ごとの判断タスクに適応させ、各指示遵守タスクが成功しているかどうかをモデルに判断させるようにした。

リファイナーの改善能力を評価するために、我々は $D_{\text{RSFT}}$ から200サンプルを分割してテストセットを作成し、GPT-4oと3ラウンドの訓練後のリファイナーであるSPaR-8B-RFT-iter3の両方を審判として使用し、改善された応答が指示を正確に遵守しているかどうかを評価する。

表1: 指示遵守ベンチマークにおける反復訓練されたLLMの主要結果（完全な結果については表6を参照）。Pはプロンプトレベル、Iは指示レベルを表す。LとSはそれぞれルーズな評価と厳密な評価を示す。Avg.は平均結果を、Lvはレベルを意味する。推論時のツリー探索を使用した結果は緑色で強調されている。各バックボーンモデルの最高結果は太字で表示されている。^†マークの付いたスコアは原論文から直接引用されている。

	IFEval					FollowBench (SSR)
Model	P (L)	I (L)	P (S)	I (S)	Avg.	Lv-1	Lv-2	Lv-3	Lv-4	Lv-5	Avg.
LLaMA3-8B Models
LLaMA3-8B-Instruct	77.6	84.5	70.6	78.9	77.9	69.4	62.2	63.1	61.9	60.9	63.5
AutoIF-8B^†	43.1	56.0	28.8	42.2	42.5	54.6	52.1	50.0	49.0	43.7	49.9
SELF	78.2	84.5	76.0	82.9	80.4	68.3	65.7	65.2	62.2	62.4	64.8
Humpback	72.5	80.2	70.1	78.1	75.2	66.8	66.1	67.2	60.2	62.6	64.6
Self-Rewarding	77.3	84.2	74.1	81.7	79.3	72.8	66.6	66.8	64.9	64.1	67.0
Meta-Rewarding	77.8	84.1	75.4	82.3	79.9	73.9	71.9	66.0	62.3	62.6	67.3
SPaR-8B-SFT	75.4	82.5	73.4	80.6	78.0	73.9	67.4	68.1	63.1	61.3	66.8
SPaR-8B-DPO-iter1	78.0	84.7	75.8	82.6	80.3	75.3	67.7	67.6	64.7	62.3	67.5
SPaR-8B-DPO-iter2	78.9	85.0	77.1	83.3	81.1	73.9	71.9	69.1	64.0	62.2	68.2
SPaR-8B-DPO-iter3	79.9	85.4	78.0	83.7	81.8	73.0	72.3	70.0	64.1	64.7	68.8
\cdashline1-12 w/ tree search	82.4	87.5	79.5	85.3	83.7	73.9	71.7	70.3	66.8	64.1	69.4
GLM-4-9B Models
GLM-4-9B-Chat	71.5	79.9	68.0	77.2	74.2	80.8	75.1	67.4	64.3	65.4	70.6
SPaR-9B-SFT	71.5	80.5	68.8	78.1	74.7	79.4	70.9	68.2	65.1	63.7	69.5
SPaR-9B-DPO-iter3	77.3	84.1	73.6	81.4	79.1	82.7	76.7	67.9	68.3	64.2	72.0
LLaMA3-70B Models
LLaMA3-70B-Instruct	83.7	88.9	77.1	83.8	83.4	77.1	72.5	69.4	68.7	66.3	70.8
AutoIF-70B^†	85.6	90.4	80.2	86.7	85.7	71.0	67.2	66.2	64.6	63.5	66.5
SPaR-70B-DPO-iter3	85.6	90.2	81.3	87.3	86.1	80.3	75.7	71.4	73.7	70.5	74.3

3.3 Actor Evaluation Results

SPaR significantly improves instruction-following ability.

表1に示されているように、反復的に訓練されたLLMは、IFEvalとFollowBenchの両方のベンチマークで大幅な改善を示している。特筆すべきは、3回の訓練反復後、SPaR-8B-DPO-iter3がIFEvalにおいてGPT-4-Turbo（平均精度81.3%）さえも上回ったことである。さらに、推論段階でツリー探索洗練技術を組み込むことで、性能が大幅に向上する。加えて、SPaRはモデルサイズに関して優れたスケーラビリティを示し、LLaMA3-70B-Instructモデルの指示遵守能力を大幅に向上させる。

SPaR does not damage general abilities.

付録D.2に示されているように、我々は各反復の一般的なベンチマークでの性能を評価した。これにはGSM8k (Cobbe et al., 2021)、TriviaQA (Joshi et al., 2017)、MMLU (Hendrycks et al., 2020)、およびHumanEval (Chen et al., 2021)が含まれる。結果は、SPaRが一般的な性能を維持または改善さえしていることを示しており、特にGSM8kとHumanEvalベンチマークで顕著である。これは、向上した指示遵守能力がLLMの全体的な調整を支援することを示している。

SPaR outperforms other baselines significantly.

図3は、各訓練反復におけるIFEvalの改善を示している。すべての反復において、SPaRは他の手法を上回っている。特筆すべきは、3回の反復後でも、他の手法がSPaRの最初の反復の性能を上回ることができなかったことである。一般に、我々の手法とSELFは自己報酬および meta-rewarding アプローチを上回っており、指示遵守タスクにおける洗練から学習し、干渉要因を排除することの重要性を強調している。さらに、SPaRがSELFよりも優れた性能を示していることは、対照的な洗練応答ペアが重要な差異を浮き彫りにできることを示しており、これは正しい応答のみを使用して学習することは困難である。加えて、SPaR-8B-SFTのみが元のLLaMA3-8B-Instructを上回っており、これは判断SFTまたは洗練SFTデータを組み込むと性能が低下することを示唆している。これは、おそらくタスクの大きな隔たりとデータの多様性の減少によるものである。

3.4 Refiner Evaluation Results

表2: LLMBarにおける反復訓練されたLLMの判断能力の評価。（Mistral-7B-Instructの結果については表8を参照。）Acc.は精度を表す。各ベースモデルの最高スコアは太字で強調されている。

LLaMA3-8B Models
Model	Natural		Adversarial										Average
	Natural		GPTInst		GPTOut		Manual		Neighbor		Average		Average
	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1
GPT-4o-Mini	74.5	70.5	69.2	61.6	60.9	51.4	59.8	51.9	72.8	66.4	65.7	57.8	67.4	60.4
LLaMA3-8B-Instruct	60.0	51.8	55.4	46.1	47.9	39.5	51.1	36.6	54.5	45.0	52.2	41.8	53.8	43.8
SELF	69.5	61.6	62.0	50.7	64.9	54.8	57.6	41.8	64.6	51.3	62.2	49.6	63.7	52.0
Self-Rewarding	71.0	66.3	70.1	66.7	63.8	59.5	62.0	55.7	67.5	61.7	65.9	60.9	66.9	61.9
Meta-Rewarding	70.5	66.3	68.5	64.6	64.9	60.2	64.1	58.3	69.0	63.1	66.6	61.6	67.4	62.5
SPaR-8B-SFT	68.5	60.9	67.9	62.4	59.6	50.0	63.0	54.1	68.3	59.3	64.7	56.5	65.5	57.3
SPaR-8B-RFT-iter1	68.5	63.2	66.8	60.6	63.8	55.3	62.0	53.3	66.8	59.0	64.9	57.1	65.6	58.3
SPaR-8B-RFT-iter2	70.5	64.2	66.8	61.6	66.0	60.0	65.2	57.9	69.0	62.4	66.8	60.5	67.5	61.2
SPaR-8B-RFT-iter3	70.5	65.9	70.7	66.7	63.8	57.5	68.5	63.3	68.3	62.2	67.8	62.4	68.3	63.1
GLM-4-9B Models
GLM-4-9B-Chat	74.5	76.5	74.5	75.9	57.4	62.3	53.3	56.6	69.8	72.0	63.7	66.7	65.9	68.6
SPaR-9B-SFT	70.5	65.5	72.8	70.2	59.6	55.8	64.1	53.5	71.3	67.2	66.9	61.7	67.7	62.5
SPaR-9B-RFT-iter3	71.0	68.8	75.5	74.6	58.5	55.2	68.5	64.2	68.7	65.9	67.8	64.9	68.4	65.7
LLaMA3-70B Models
LLaMA3-70B-Instruct	75.0	71.9	73.4	69.6	69.1	66.7	66.3	60.8	69.0	63.4	69.5	65.1	70.6	66.5
SPaR-70B-RFT-iter3	78.0	74.7	78.8	76.9	64.9	61.2	67.4	59.5	72.4	68.1	70.9	66.4	72.3	68.1

SPaR iteratively enhances judgment capability.

表2における我々の分析は、SPaRの反復が指示遵守タスクを評価するモデルの能力を顕著に向上させることを示している。3回目の反復で、リファイナーSPaR-8B-RFT-iter3は、判断SFTデータセットの構築に使用されたモデルであるGPT-4o-Miniを凌駕している。この発見は、教師あり微調整データがボトルネックとならないため、継続的な自己改善の可能性を強調している。興味深いことに、我々のリファイナーは敵対的テストセットにおいてGPT-4o-Miniを大きく上回っており、これは木探索中に生成された類似の正例と負例が、我々のモデルを敵対的サンプルに対してより頑健にする可能性があることを示唆している。

表3: リファインメント評価結果。Acc-GPTはGPT-4oを判定者として使用；-SPaRはSPaR-8B-RFT-iter3を使用。

Model	Acc-GPT	Acc-SPaR
GPT-4o-Mini	79.0	71.0
SPaR-8B-SFT	73.5	71.0
SPaR-8B-RFT-iter1	77.5	77.0
SPaR-8B-RFT-iter2	74.5	76.0
SPaR-8B-RFT-iter3	79.0	90.5

SPaR progressively improves refinement capability.

表3は、LLaMA3-8B-Instructのリファインメント精度（成功率）が各訓練反復で継続的に向上し、最終的にSFTデータ構築に使用された強力なLLMであるGPT-4o-Miniのレベルに匹敵することを示している。これはさらに、指示遵守タスクにおける自己進化の有望な方法を示している。しかし、これは同時に自己評価バイアスの潜在的な問題も指摘している：リファイナーが自己評価でリファインメント精度を評価する場合、GPT-4oによって評価される場合よりも著しく良好な結果を示すのである。

3.5 Ablations and Analysis

Refinement preference pairs enhance instruction-following capability more effectively.

干渉要因が実際に選好学習に影響を与え、主要な差異を強調する必要性を動機づけることを検証するために、我々は2つのタスクを特徴とする合成データ実験を実施した：

•

文字列生成：モデルは指定された数の特定の文字を生成する必要があり、文字の大文字小文字に制限はない。例えば、12個の文字aを生成する。各プロンプトに対して、まず小文字の負の応答を構築する。干渉要因を導入するために、干渉ペアでは正しい応答を大文字にし、洗練されたペアでは小文字の正しさを維持する。
•

開始/終了文のある物語生成：モデルは文1で始まり文2で終わる物語を生成するよう求められる。負の応答には文1または文2のいずれかが欠けている。干渉ペアではこれらの文に異なる物語が連結されるが、洗練されたペアでは同じ物語が intact に保たれる。

図4は、洗練されたペアが両タスクにおいて干渉ペアを大きく上回り、より大きく効果的な改善を示していることを示している。特に物語生成では、物語が異なることにより、元のモデルよりも精度が低下している。さらに、文字生成タスクでは、干渉要因（大文字の比率）が迅速に学習されることが明確に観察できる。しかし、タスクの遂行は洗練された設定ほど良好ではなく、主要な差異に焦点を当て、可能な干渉要因を排除する必要性が強調されている。

さらに、表5のアクターの性能に関するアブレーション研究は、洗練データを省略した場合に大幅な低下が見られることを明らかにしている。表1におけるSPaRの自己報酬および meta-rewarding 手法に対する優位性も、干渉要因を排除するための洗練ペアの使用の重要性を強調している。加えて、洗練された応答ペアの文字列レベルの類似性は0.90であり、独立にサンプリングされた応答ペアの0.85よりもはるかに高い。

表4: アクターに関するアブレーション研究。

Model	IFEval		FollowBench (SSR)
Model	Prompt(S)	Instruction(S)	Avg.
SPaR-8B-DPO-iter3	78.0	83.7	68.8
w/o Tree Search	-2.0	-0.8	-1.7
w/o Iterative Training	-0.9	-0.2	-2.0
w/o Refinement	-2.6	-1.6	-3.1

表5: リファイナーに関するアブレーション研究。

Model	Natural		Adversarial
Model	Acc.	F1	Acc.	F1
SPaR-8B-RFT-iter3	70.5	65.9	67.8	62.4
w/o Tree Search	-0.5	-1.2	-4.3	-8.2
w/o Iterative Training	-0.5	-2.5	-1.7	-3.5

Each element is crucial in SPaR.

SPaRの主要な要素には、ツリー探索洗練プロセスと反復学習が含まれる。そのため、我々はこれらの要素の重要性を評価するためのアブレーション研究を実施した。ツリー探索プロセスについては、表5に示すように、ツリー探索を除外するとアクターの性能が大幅に低下する。これは、洗練に多くの反復を必要とする難しいサンプルの不足と、選好ペアの数の減少によるものかもしれない。表10は、ツリー探索が応答の洗練において貪欲デコーディングを大きく上回り、best-of-N洗練や単純な反復洗練などの他の手法を凌駕することを示している。さらに、表5が示すように、ツリー探索は特に敵対的な入力に対する判断能力の向上に不可欠である。ツリー探索プロセス中に生成される反対のラベルを持つ類似の応答は、困難なシナリオに対する堅牢性を高めることができる。さらに、表5および5に示された結果は、アクターとリファイナーの両方にとって反復学習の重要性を強調している。この反復学習プロセスは相互の改善を確実にし、我々のフレームワークの全体的な有効性にとって極めて重要である。

Scaling test-time compute significantly boosts model performance.

最近のテスト時計算量スケーリングの発展(Snell et al., 2024)に触発され、我々はSPaR-8B-DPO-iter3の推論時における様々なデコーディング戦略を調査した。図5は、推論回数を増やすことで、モデルの性能が顕著に向上し、貪欲デコーディングの結果を上回ることを示している。特筆すべきは、ツリー探索洗練の性能向上は緩やかであるが、最終的にはbest-of-N生成を上回る結果を達成することである。これは、洗練が生成よりも強力であり、指示遵守タスクにおけるテスト時計算量のスケーリングにより適している可能性があることを示唆している。

4 Related Work

4.1 Instruction Following

指示遵守はLLMの基本的な能力であり、LLMのアライメントの中心的な課題である (Ouyang et al., 2022; Cheng et al., 2023; Lou et al., 2024)。多くの研究が様々な観点から指示遵守能力を評価している (Li et al., 2023b; Zheng et al., 2023; Zeng et al., 2023; Liu et al., 2023a; Xia et al., 2024)。LLMの応用範囲が拡大するにつれ、期待される課題はより複雑になり (Liu et al., 2023b)、多くの制約を含む複合的な指示を伴うことが多い。その結果、これらの複雑な指示に従うLLMの能力を評価するためのベンチマークがいくつか開発されている (Zhou et al., 2023; Jiang et al., 2023b; Qin et al., 2024; Wen et al., 2024)。さらに、複数の研究がLLMの指示遵守能力の向上に焦点を当てている (Lou et al., 2023; Zhou et al., 2024; Sun et al., 2024)。指示遵守タスクの重要な側面の一つは、応答のわずかな違いがその正確性に大きな影響を与える可能性があることである (Zhou et al., 2023)。これを考慮し、我々はSPaRフレームワークを導入し、効果的な改善のためにこれらの微妙な変化を強調するよう外部要素を削減した選好ペアを構築する。

4.2 Autonomous LLM Alignment

アライメントデータを手動で収集するコストが高いため、多くの研究が自律的なLLMアライメント手法の探求に焦点を当てている(Cao et al., 2024)。一般的な戦略の一つは、高度なモデルから抽出されたデータを使用して、より能力の低いモデルを改善することである(Peng et al., 2023; Xu et al., 2023; Cheng et al., 2024)。あるいは、LLMがより強力になるにつれて、いくつかの研究(Wang et al., 2023; Yuan et al., 2024; Zhang et al., 2024)では、LLMの能力を自己進化させる方法を調査している。Self-Instruct(Wang et al., 2023)は、モデルの文脈内学習能力を活用して指示を生成する。Reinforced Self-Training(Gulcehre et al., 2023)は、LLMポリシーからデータをサンプリングし、オフラインRLアルゴリズムを通じてポリシーを強化するためにそのデータセットを利用する。さらに、最近の研究では多様なソースからのフィードバックが組み込まれている。SELF(Lu et al., 2023)は、LLMに自己フィードバックと自己改善のメタスキルを獲得させ、モデルが反復的に自己進化できるようにする。AutoIF(Dong et al., 2024)はコード実行フィードバックを導入している。Self-rewarding(Yuan et al., 2024)とMeta-rewarding(Wu et al., 2024)は、LLMを審判として自身の応答を評価する能力を活用し、選好ペアを構築している。しかし、これらの手法は通常、アクターモデルから複数の独立した応答を直接サンプリングするため、干渉要因が導入される可能性が高く、モデルの重要な差異の把握に影響を与える可能性がある。したがって、我々は、モデルの応答を自己改善することで選好ペアを構築し、外部要素を最小限に抑え、より効果的な自律的改善を促進する新しいフレームワークを提案する。

5 Conclusion

本研究において、我々は新しい自己対戦フレームワークであるSPaRを導入した。これは、洗練ペアを用いた訓練を通じてLLMの指示遵守能力を向上させることを目的としている。我々は、モデルから複数の独立した応答をサンプリングして選好ペアを構築する従来のアプローチとは異なり、外的要因を最小限に抑え、主要な差異を強調するように選好ペアを洗練させることで、指示遵守タスクにおいて顕著な改善をもたらすことを明らかにした。注目すべきことに、我々のフレームワークを用いて反復的に訓練されたLLaMA3-8B-Instructモデルは、IFEvalにおいてGPT-4-Turboを凌駕する性能を示した。推論時の計算量をスケールさせることで、その性能をさらに向上させることができる。さらに、SPaRによってもたらされる指示遵守能力、判断能力、洗練能力の反復的な向上は、継続的な自己改善への有望な道筋を示している。

References

Bai et al. (2022) Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862, 2022.
Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Cao et al. (2024) Boxi Cao, Keming Lu, Xinyu Lu, Jiawei Chen, Mengjie Ren, Hao Xiang, Peilin Liu, Yaojie Lu, Ben He, Xianpei Han, et al. Towards scalable automated alignment of llms: A survey. arXiv preprint arXiv:2406.01252, 2024.
Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
Cheng et al. (2023) Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, and Minlie Huang. Black-box prompt optimization: Aligning large language models without model training. arXiv preprint arXiv:2311.04155, 2023.
Cheng et al. (2024) Jiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, and Minlie Huang. Autodetect: Towards a unified framework for automated weakness detection in large language models. arXiv preprint arXiv:2406.16714, 2024.
Chowdhery et al. (2023) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Dong et al. (2024) Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, and Jingren Zhou. Self-play with execution feedback: Improving instruction-following capabilities of large language models. arXiv preprint arXiv:2406.13542, 2024.
GLM et al. (2024) Team GLM, :, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, and Zihan Wang. Chatglm: A family of large language models from glm-130b to glm-4 all tools, 2024.
Gulcehre et al. (2023) Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, et al. Reinforced self-training (rest) for language modeling. arXiv preprint arXiv:2308.08998, 2023.
Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
Hou et al. (2024) Zhenyu Hou, Yiin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, et al. Chatglm-rlhf: Practices of aligning large language models with human feedback. arXiv preprint arXiv:2404.00934, 2024.
Jiang et al. (2023a) Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023a.
Jiang et al. (2023b) Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, and Wei Wang. Followbench: A multi-level fine-grained constraints following benchmark for large language models. arXiv preprint arXiv:2310.20410, 2023b.
Joshi et al. (2017) Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1601–1611, 2017.
Li et al. (2023a) Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer, Jason Weston, and Mike Lewis. Self-alignment with instruction backtranslation. arXiv preprint arXiv:2308.06259, 2023a.
Li et al. (2023b) Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Alpacaeval: An automatic evaluator of instruction-following models. https://github.com/tatsu-lab/alpaca_eval, 5 2023b.
Liu et al. (2024) Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, et al. Best practices and lessons learned on synthetic data for language models. arXiv preprint arXiv:2404.07503, 2024.
Liu et al. (2023a) Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, et al. Alignbench: Benchmarking chinese alignment of large language models. arXiv preprint arXiv:2311.18743, 2023a.
Liu et al. (2023b) Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, et al. Agentbench: Evaluating llms as agents. arXiv preprint arXiv:2308.03688, 2023b.
Lou et al. (2023) Renze Lou, Kai Zhang, Jian Xie, Yuxuan Sun, Janice Ahn, Hanzi Xu, Yu Su, and Wenpeng Yin. Muffin: Curating multi-faceted instructions for improving instruction-following. arXiv preprint arXiv:2312.02436, 2023.
Lou et al. (2024) Renze Lou, Kai Zhang, and Wenpeng Yin. Large language model instruction following: A survey of progresses and challenges. Computational Linguistics, pp. 1–10, 2024.
Lu et al. (2023) Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Fei Mi, Baojun Wang, Weichao Wang, Lifeng Shang, and Qun Liu. Self: Language-driven self-evolution for large language model. arXiv preprint arXiv:2310.00533, 2023.
MetaAI (2024) MetaAI. Introducing meta llama 3: The most capable openly available llm to date, 2024. URL https://ai.meta.com/blog/meta-llama-3.
Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
Peng et al. (2023) Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with gpt-4. arXiv preprint arXiv:2304.03277, 2023.
Qin et al. (2024) Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, and Dong Yu. Infobench: Evaluating instruction following ability in large language models. arXiv preprint arXiv:2401.03601, 2024.
Rafailov et al. (2024) Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36, 2024.
Ruan et al. (2023) Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J Maddison, and Tatsunori Hashimoto. Identifying the risks of lm agents with an lm-emulated sandbox. arXiv preprint arXiv:2309.15817, 2023.
Shumailov et al. (2024) Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, and Yarin Gal. Ai models collapse when trained on recursively generated data. Nature, 631(8022):755–759, 2024.
Snell et al. (2024) Charlie Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024.
Sun et al. (2024) Haoran Sun, Lixin Liu, Junjie Li, Fengyu Wang, Baohua Dong, Ran Lin, and Ruohui Huang. Conifer: Improving complex constrained instruction-following ability of large language models. arXiv preprint arXiv:2404.02823, 2024.
Touvron et al. (2023) Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.
Wang et al. (2022) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.
Wang et al. (2023) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A Smith, Daniel Khashabi, and Hannaneh Hajishirzi. Self-instruct: Aligning language models with self-generated instructions. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 13484–13508, 2023.
Wen et al. (2024) Bosi Wen, Pei Ke, Xiaotao Gu, Lindong Wu, Hao Huang, Jinfeng Zhou, Wenchuang Li, Binxin Hu, Wendy Gao, Jiaxin Xu, et al. Benchmarking complex instruction-following with multiple constraints composition. arXiv preprint arXiv:2407.03978, 2024.
Wu et al. (2024) Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, and Sainbayar Sukhbaatar. Meta-rewarding language models: Self-improving alignment with llm-as-a-meta-judge. arXiv preprint arXiv:2407.19594, 2024.
Xia et al. (2024) Congying Xia, Chen Xing, Jiangshu Du, Xinyi Yang, Yihao Feng, Ran Xu, Wenpeng Yin, and Caiming Xiong. Fofo: A benchmark to evaluate llms’ format-following capability. arXiv preprint arXiv:2402.18667, 2024.
Xu et al. (2023) Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, and Daxin Jiang. Wizardlm: Empowering large language models to follow complex instructions. arXiv preprint arXiv:2304.12244, 2023.
Yuan et al. (2024) Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, and Jason Weston. Self-rewarding language models. arXiv preprint arXiv:2401.10020, 2024.
Yuan et al. (2023) Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou, and Jingren Zhou. Scaling relationship on learning mathematical reasoning with large language models. arXiv preprint arXiv:2308.01825, 2023.
Zeng et al. (2022) Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, et al. Glm-130b: An open bilingual pre-trained model. arXiv preprint arXiv:2210.02414, 2022.
Zeng et al. (2023) Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, and Danqi Chen. Evaluating large language models at evaluating instruction following. arXiv preprint arXiv:2310.07641, 2023.
Zhang et al. (2024) Dan Zhang, Sining Zhoubian, Yisong Yue, Yuxiao Dong, and Jie Tang. Rest-mcts*: Llm self-training via process reward guided tree search. arXiv preprint arXiv:2406.03816, 2024.
Zhao et al. (2024) Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, and Tengfei Pan. Beyond iid: Optimizing instruction learning from the perspective of instruction interaction and dependency. 2024. URL https://arxiv.org/abs/2409.07045.
Zheng et al. (2023) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36:46595–46623, 2023.
Zhou et al. (2024) Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, et al. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.
Zhou et al. (2023) Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911, 2023.

Appendix A Dataset Information

Constraint Taxonomy.

我々はCheng et al. (2024)の分類法を採用し、さらにプロンプトの多様性を確保するためにより包括的になるよう改良した。改良された分類法を図6に示す。

Prompt Template.

ここでは、複雑なプロンプトを構築するためのプロンプトを図7に示す。リファイナーについては、判断のためのプロンプトテンプレートを図8に示す。改良タスクについては、判断後の複数ターンのタスクとして形成し、そのプロンプトテンプレートを図8に示す。

Appendix B Tree-search Algorithm

我々は、アルゴリズム1とアルゴリズム2において、BFSとDFS洗練化の詳細なプロセスを示す。

アルゴリズム1 BFS-洗練化

指示

x

、応答

y

、判断

j

、洗練化器

R_{N}

、深さ制限

d

、分岐制限

b

。

S_{0}\leftarrow\{x,y,j\}

for

t=1,\cdots,d

S^{\prime}_{t}\leftarrow\{[x,y^{\prime}]\mid s\in S_{t-1},y^{\prime}\in{\color% [rgb]{0,0,0}R_{N}}(s,b)\}

V_{t}\leftarrow R_{N}(S^{\prime}_{t})

\triangleright

判断を取得

S_{t}\leftarrow\{[x,y^{\prime},j^{\prime}]\mid s\in S^{\prime}_{t},j^{\prime}% \in{\color[rgb]{0,0,0}V_{t}}(s)\}

end for

return

\arg\max_{s\in S_{T}}V_{T}(s)

アルゴリズム2 DFS-洗練化

現在の状態

s

、深さ

t

、洗練化器

R_{N}

、深さ制限

d

、閾値

v_{th}

、分岐制限

b

t>T

then 出力

s=(x,y^{\prime},j^{\prime})

を記録

end if

for

s^{\prime}\in R_{N}(s,b)

\triangleright

洗練化

R_{N}(s^{\prime})<v_{th}

then

\triangleright

判断

DFS

(s^{\prime},t+1)

end if

end for

Appendix C Implementation Details

アクター用のSFTデータセットは8,000例から構成され、一方リファイナーのデータセットは判断訓練用に約9,000例、最初のターンの判断に続くマルチターンタスクとしてフォーマットされた洗練訓練用に3,000例を含んでいる。これら2つのデータセットはともにGPT-4o-Miniを用いて構築されている。アクターとリファイナーの両方は、学習率2e-6、ウォームアップ比0.1で訓練され、 $\beta_{1}=0.9$ および $\beta_{2}=0.999$ を用いたAdamWオプティマイザーを使用している。アクターはバッチサイズ64で5エポックにわたって訓練され、リファイナーは同じバッチサイズで3エポック訓練される。データ構築プロセスにおいて、我々は性能と効率のバランスを取るために、ツリー探索の予算を15に設定した。我々の実験では、展開されたツリーノードの平均数は約3.7であり、これは許容可能なレベルである。具体的には、LLaMA3-8B-Instructの場合、異なる反復にわたる平均展開ノード数は4.3、3.7、3.4であり、モデルが強くなるにつれて減少傾向を示している。アクターの反復訓練では、各反復でDPOに約5,000例を使用する。(Hou et al., 2024)が提案するように訓練の安定性を高めるため、選択された応答に対して重み0.1の追加のSFT損失が加えられる。ここでは、学習率を2e-7、 $\beta$ を0.1に設定し、ウォームアップ比0.1で、バッチサイズ32で1エポック訓練を行う。リファイナーについては、各反復で約10,000例を使用し、そのうち4,000例が洗練サンプルである。我々は判断訓練データセットがポジティブサンプルとネガティブサンプルのバランスを保つようにしている。訓練設定はSFTと同じままであるが、学習率は1e-6に設定される。すべての実験は8 $\times$ 80G Nvidia A100セットアップで実行される。

我々のベースライン手法については、公平性を確保するために統一された設定を維持している。SELFについては、我々の構築したデータセット、 $D_{Actor}$ および $D_{Refiner}$ で初期化する。自己報酬および meta-rewarding の場合、 $D_{Actor}$ および $D_{JSFT}$ から開始する。Humpbackについては、Oasst¹¹1https://huggingface.co/datasets/OpenAssistant/oasst1データセットから約3,000データと $D_{Actor}$ から5,000データを組み合わせてシードデータセットを作成する。また、公平な比較のために訓練サンプル数がほぼ同一になるよう制御している。

Appendix D Experiment Results

D.1 Instruction-Following Evaluation Results.

指示追従ベンチマークにおける評価結果を表6に示す。我々の手法はこれらのベンチマークにおいてすべてのベースラインを上回り、各反復で大幅な改善を示している（図9）。

D.2 General Performance Evaluation

表7における我々の分析は、SPaR訓練が一般的な性能を損なうどころか、むしろ向上をもたらす可能性があることを示している。

D.3 Judgment Evaluation Results.

表8に示されているように、判断能力は各反復で向上し、その精度はすべてのベースラインを上回っている。

D.4 Ablation Study on Judgment Capability.

我々の実験では、判断能力の反復的改善に多数決を採用している。リファイナーSPaR-8B-SFTのサンプリング回数とLLMBarにおける性能の結果を表9に示す。性能と計算時間のバランスを取るため、我々は多数決@5を選択している。

D.5 Ablation Study on Refinement Capability.

表10は、SPaR-8Bにおける改良タスクに対する異なるデコーディング戦略の結果を示している。貪欲デコーディングを除く手法では、同じ推論予算を使用している。木探索アルゴリズムが他の手法を大きく上回っていることが分かり、木探索改良を組み込むことの重要性が確認できる。

D.6 Inference-time Scaling Comparison

図10は、SPaRと自己報酬の比較を示しており、我々の研究における応答生成数で測定された推論時間に関するスケーラビリティに焦点を当てている。我々の分析にはLLaMA3-8B-InstructモデルとMistral-7B-Instructモデルの両方が含まれる。結果は、推論時間により多くの計算リソースが割り当てられた場合、SPaRが自己報酬方式を上回り、性能が向上することを示している。

表6: 指示追従ベンチマークにおけるSPaR-7B、SPaR-9B、およびSPaR-70Bの完全な結果。Pはプロンプトレベル、Iは指示レベルを表す。LとSはそれぞれ緩和評価と厳格評価を示す。Avg.は平均結果を、Lvはレベルを意味する。^†が付いたスコアは原論文から直接引用されている。

	IFEval					FollowBench (SSR)
Model	P (L)	I (L)	P (S)	I (S)	Avg.	Lv-1	Lv-2	Lv-3	Lv-4	Lv-5	Avg.
Mistral-7B Models
Mistral-7B-Instruct	55.1	64.9	49.9	60.2	57.5	65.1	61.6	61.6	56.8	57.2	60.4
SELF	71.3	79.7	68.0	76.9	74.0	71.5	64.2	60.8	58.0	57.0	62.3
Humpback	60.4	71.0	56.6	67.6	63.9	70.7	63.9	63.8	59.8	57.9	63.2
Self-Rewarding	64.3	73.5	61.0	70.7	67.4	70.8	64.8	62.3	61.9	58.3	63.6
Meta-Rewarding	65.1	74.7	61.0	71.1	68.0	73.2	64.6	64.5	60.6	57.6	64.1
SPaR-7B-SFT	62.7	72.3	59.3	68.7	65.8	74.4	64.3	62.5	58.2	55.0	62.9
SPaR-7B-DPO-iter1	68.2	76.6	64.7	73.6	70.8	73.2	64.6	63.1	60.3	56.6	63.6
SPaR-7B-DPO-iter2	70.0	78.1	65.8	74.2	72.0	72.2	65.7	61.4	62.4	57.5	63.8
SPaR-7B-DPO-iter3	74.1	80.9	69.7	77.1	75.5	74.6	63.8	66.1	61.0	58.0	64.7
GLM-4-9B Models
GLM-4-9B-Chat	71.5	79.9	68.0	77.2	74.2	80.8	75.1	67.4	64.3	65.4	70.6
SPaR-9B-SFT	71.5	80.5	68.8	78.1	74.7	79.4	70.9	68.2	65.1	63.7	69.5
SPaR-9B-DPO-iter1	73.8	81.2	70.6	78.5	76.0	82.6	76.0	67.9	64.9	63.6	71.0
SPaR-9B-DPO-iter2	76.7	83.3	73.2	80.9	78.5	80.4	76.6	67.4	68.7	64.1	71.4
SPaR-9B-DPO-iter3	77.3	84.1	73.6	81.4	79.1	82.7	76.7	67.9	68.3	64.2	72.0
LLaMA3-70B Models
LLaMA3-70B-Instruct	83.7	88.9	77.1	83.8	83.4	77.1	72.5	69.4	68.7	66.3	70.8
AutoIF-70B^†	85.6	90.4	80.2	86.7	85.7	71.0	67.2	66.2	64.6	63.5	66.5
SPaR-70B-DPO-iter1	84.5	89.2	80.2	85.7	84.9	77.6	74.0	70.2	70.6	66.9	71.9
SPaR-70B-DPO-iter2	85.0	89.4	81.5	87.2	85.8	80.4	76.4	69.9	73.7	70.2	74.1
SPaR-70B-DPO-iter3	85.6	90.2	81.3	87.3	86.1	80.3	75.7	71.4	73.7	70.5	74.3

表7: 一般的なベンチマークにおける性能。SPaRはモデルの一般的な能力を維持している。

Model	GSM8k	TriviaQA	MMLU	HumanEval	Average
Mistral-7B Models
Mistral-7B-Instruct	42.9	72.5	57.9	32.9	51.6
SPaR-7B-SFT	56.4	72.8	56.7	44.5	57.6 _(+6.0)
SPaR-7B-DPO-iter1	55.6	72.2	55.3	46.3	57.4 _(+5.8)
SPaR-7B-DPO-iter2	54.4	72.1	55.8	45.1	56.9 _(+5.3)
SPaR-7B-DPO-iter3	58.2	71.6	55.1	46.3	57.8 _(+6.2)
LLaMA3-8B Models
LLaMA3-8B-Instruct	75.4	75.9	63.6	55.5	67.6
SPaR-8B-SFT	75.6	76.0	64.0	61.6	69.3 _(+1.7)
SPaR-8B-DPO-iter1	78.8	75.2	63.8	60.4	69.6 _(+2.0)
SPaR-8B-DPO-iter2	77.0	74.9	63.1	60.4	68.9 _(+1.3)
SPaR-8B-DPO-iter3	77.7	75.1	63.1	60.9	69.2 _(+1.6)
GLM-4-9B Models
GLM-4-9B-Chat	80.6	69.7	71.9	74.3	74.1
SPaR-9B-SFT	82.9	69.4	71.8	73.8	74.5 _(+0.4)
SPaR-9B-DPO-iter1	82.6	68.8	71.6	75.0	74.5 _(+0.4)
SPaR-9B-DPO-iter2	82.8	68.9	71.8	73.8	74.3 _(+0.2)
SPaR-9B-DPO-iter3	83.0	69.0	72.1	73.2	74.3 _(+0.2)
LLaMA3-70B Models
LLaMA3-70B-Instruct	92.2	87.2	80.8	79.3	84.9
SPaR-70B-DPO-iter1	92.5	90.4	81.0	79.3	85.8 _(+0.9)
SPaR-70B-DPO-iter2	92.9	89.5	80.4	78.7	85.4 _(+0.5)
SPaR-70B-DPO-iter3	93.4	86.7	80.6	79.9	85.2 _(+0.3)

表8: SPaR-7BのLLMBarにおける判断評価結果。Acc.は精度を表す。

Model	Natural		Adversarial										Average
	Natural		GPTInst		GPTOut		Manual		Neighbor		Average		Average
	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1	Acc.	F1
Mistral-7B-Instruct	58.0	69.1	57.1	68.8	50.0	64.1	45.6	61.5	47.8	62.6	50.1	64.3	51.7	65.2
SELF	68.0	65.2	71.2	68.7	56.4	56.8	62.0	52.6	67.5	62.3	64.3	60.1	65.0	61.1
Self-Rewarding	68.0	64.0	69.0	63.7	59.6	53.7	63.0	57.5	69.4	64.3	65.3	59.8	65.8	60.6
Meta-Rewarding	67.5	62.4	71.7	68.7	56.4	51.8	63.0	56.4	66.8	62.1	64.5	59.7	65.1	60.3
SPaR-7B-SFT	69.5	63.9	71.7	67.5	55.3	48.8	55.4	45.3	69.4	62.3	63.0	56.1	64.3	57.6
SPaR-7B-RFT-iter1	67.0	62.1	66.3	62.7	56.4	52.9	60.9	52.6	64.2	60.7	61.9	57.2	63.0	58.2
SPaR-7B-RFT-iter2	68.0	64.4	68.5	64.6	60.6	57.5	62.0	52.1	64.2	60.0	63.8	58.5	64.7	59.7
SPaR-7B-RFT-iter3	71.0	66.7	72.3	67.5	57.4	55.6	60.9	51.4	68.3	62.6	64.7	59.2	66.0	60.7

表9: LLMBarにおけるデコーディング戦略の比較。

Method	Natural		Adversarial
Method	Acc.	F1	Acc.	F1
Greedy Decoding	68.0	60.7	63.9	55.1
Majority Voting@3	69.0	60.8	63.7	54.5
Majority Voting@5	68.5	60.9	64.7	56.5
Majority Voting@7	66.5	58.8	65.7	56.7
Majority Voting@9	69.0	61.2	65.8	57.1

表10: 洗練タスクにおける異なるデコーディング戦略の比較。Acc-GPTはGPT-4oを判定者として使用した場合の精度を、Acc-SPaRはSPaR-8B-RFT-iter3を判定者として使用した場合の精度を表す。

Method	Acc-GPT	Acc-SPaR
Greedy Decoding	69.5	65.0
Best of N	74.0	80.0
Iterative Refinement	71.0	82.0
BFS	79.0	90.5
DFS	79.0	90.0