JaLMS
最新の AI 研究を日本語で解読

Smaller Language Models Are Better Instruction Evolvers

Tingfeng Hui1, Lulu Zhao211footnotemark: 1, Guanting Dong3, Yaqi Zhang1, Hua Zhou2, Sen Su1

1Beijing University of Posts and Telecommunications, Beijing, China
2Beijing Academy of Artificial Intelligence, BAAI, Beijing, China
3Renmin University of China, Beijing, China
1(huitingfeng,zhangyaqi2021)@bupt.edu.cn
2[email protected]
denotes equal contribution. Work done during Hui’s internship at BAAI.The corresponding author.
Abstract

指示チューニングは、大規模言語モデルの潜在能力を最大限に引き出すために広く用いられている。特に、複雑で多様な指示は、モデルを様々な下流タスクに適合させる上で重要な役割を果たす。しかしながら、大規模な指示を構築する現在のアプローチは、主にGPT-4や700億パラメータ以上のような強力なモデルを好む傾向にある。これは、より大規模な言語モデル(LLM)が本質的に高い能力を持つという経験則に基づいている。本稿では、この一般的な仮定に疑問を投げかけ、指示進化の文脈における小規模言語モデル(SLM)の可能性について詳細な探究を行う。指示進化の3つのシナリオにわたる広範な実験により、SLMがLLMよりも効果的な指示を生成できることが明らかになった。さらなる分析により、SLMは指示進化の過程でより広範な出力空間を持ち、より複雑で多様なバリエーションを生み出すことが示された。我々はまた、既存の評価指標が指示の影響に焦点を当てていないことを観察した。そこで、指示データの有効性をより正確に評価するために、元のIFDスコアに指示の複雑さを導入したInstruction Complex-Aware IFD(IC-IFD)を提案する。 我々のソースコードは以下で公開されている: https://github.com/HypherX/Evolution-Analysis

1 Introduction

大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて卓越した性能を示し、ChatGPTやCopilotに代表されるように、多様なアプリケーションに広く統合されている(Ouyang et al., 2022; OpenAI, 2023; Dubey et al., 2024)。これらのモデルの潜在能力を最大限に引き出す上で重要な要素は、高品質な指示チューニングデータである。これは事後学習において重要な役割を果たし、AIアシスタントとしての有効性を向上させる。特に、より複雑で多様な指示を取り入れることで、モデルは異なるドメインやタスクにより適切に対応し、様々な下流アプリケーションでのパフォーマンスを向上させることができる(Zhang et al., 2023)。しかしながら、このような多様な指示の生成は依然として時間と労力を要する(Zheng et al., 2024a; Zhao et al., 2024; Liu et al., 2024)。これは、LLMの自動化および拡張可能なアラインメントにとって、疑いなく大きな課題となっている。最近、LLMを活用した自動指示進化に関する一連の取り組みが、コミュニティから持続的な注目を集めている。具体的には、Self-Instruct(Wang et al., 2023)のような基礎的な研究は、少数のシード指示から始め、強力な監督モデルを用いて多数の合成指示を得ている。さらに、Evol-Instruct(Xu et al., 2024a)は、既存の指示を洗練し進化させて、より複雑なバリエーションを生成している。

しかしながら、これまでの研究は主にGPT-4や700億以上のパラメータを持つような強力なLLMを好み、より大規模な言語モデルが本質的に優れた指示進化能力を持つと経験的に仮定していた。だが、これは本当に正しいのだろうか?最近、Xu et al. (2024c)は「より大規模なモデルのパラドックス」を提唱し、より大規模なモデルが必ずしも応答生成においてより良い性能をもたらすわけではないことを指摘しているが、指示の分析については見過ごしている。我々は、計算需要が少なく指示追従能力が低い小規模言語モデルが、より複雑で多様な指示を進化させるためのより効率的で効果的な代替手段を提供する可能性があると提案する。この洞察を得るために、我々は高品質な指示を生成する際の小規模言語モデル(SLM)と大規模言語モデル(LLM)の違いを調査する。具体的には、一連のベースモデルとシード指示が与えられた場合、我々は特に以下の研究課題に興味がある:

RQ1: SLMはLLMよりも指示の進化において優れているか?

これに応えるため、我々は3つの異なる指示進化シナリオ(Evol-Instruct、AutoIF (Dong et al., 2024)、Auto Evol-Instruct (Zeng et al., 2024))にわたって包括的な実験を行う。これらの実験では、Llama-3.1およびQwen-2ファミリーの小規模(similar-to\sim8B)および大規模(similar-to\sim70B)モデルを使用して新しい指示を進化・合成し、さまざまなバックボーンモデルも微調整する。3つのシナリオすべてにおける実験結果は、より大規模で強力なLLMがSLMを上回らないことを一貫して示している。さらに興味深いことに、SLMはより複雑で多様な指示を進化させる能力さえ示している。より強力なLLMがなぜSLMよりも新しい指示の生成において劣るのかをさらに調査するために、我々は次の研究課題を提起する。

RQ2: なぜSLMはLLMよりも指示の進化において優れているのか?

より強力なLLMがSLMと比較して指示の進化において劣る理由をよりよく理解するために、我々は指示の合成中の両モデルのトップ1トークン確率を比較した。我々の発見は、LLMが優れた指示追従能力のために、新しい指示を進化させる際により高い確率のトップ1トークンを生成する傾向があることを示している。このトークン生成における過剰な自信は、より狭い出力空間をもたらす。対照的に、SLMはより広範なトークンを生成でき、より複雑で多様な指示につながる。指示データのどのような種類が効果的かをさらに調査するために、我々は第3の研究課題を提案する。

RQ3: 指示チューニングなしで指示が効果的かどうかをどのように判断するか?

指示チューニングを必要としない評価は、指示データをより効率的に評価できる。最近のそのような評価は、しばしば指示自体の影響を考慮していない。例えば、報酬モデル(Cai et al., 2024)は一般的に与えられた指示に基づいて生成された応答の質を評価するために使用されるが、指示自体の質を見落とす傾向がある。同様に、IFDスコア(Li et al., 2024)は応答生成に対する指示の影響を測定するが、指示の固有の複雑さの影響を無視している。我々は、元のIFDに指示の難しさをペナルティ項として組み込んだInstruction Complex-Aware IFD (IC-IFD)スコアを導入する。我々は広範な指示データのフィルタリング実験を行い、その結果はIC-IFDスコアが指示データのより正確な評価を提供することを示している。特に指示がより高い複雑さのレベルを示すシナリオにおいて効果的である。要約すると、我々の主要な貢献は以下の通りである:

(1) 我々の知る限り、本稿は指示の合成におけるSLMとLLMの性能の差異を包括的に探究した最初の研究である。

(2) 広範な実験結果は、SLMがより広い出力空間を持ち、より複雑で多様な指示を進化させることにつながることを示している。

(3) 我々は、指示の難しさをペナルティ項として導入するIC-IFDスコアを提案する。包括的な実験は、IC-IFDが指示チューニングなしで指示データの有効性をより正確に評価できることを示している。

Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Supervised Model: Llama-3.1-70B-Instruct
Mistral-7B-v0.3 19.59 31.77 22.74 34.65 33.89 3.16 24.39 6.00
DeepSeek-7B 36.23 48.20 41.04 52.52 48.07 2.96 28.66 33.00
Llama-3.2-3B 40.11 50.84 43.81 54.43 53.75 6.60 35.98 36.00
Llama-3-8B 33.83 46.28 36.41 49.28 63.00 7.62 43.90 36.20
Llama-3.1-8B 34.57 46.04 38.81 50.48 64.22 11.32 51.22 40.60
InternLM-2-7B 40.85 53.48 44.54 56.95 68.31 19.50 56.10 40.40
Supervised Model: Llama-3.1-8B-Instruct
Mistral-7B-v0.3 24.40 35.01 26.25 37.53 40.18 2.84 29.27 19.60
DeepSeek-7B 36.60 48.08 41.77 53.12 47.92 3.56 34.76 33.80
Llama-3.2-3B 41.59 53.48 45.66 57.07 55.12 7.32 39.02 32.80
Llama-3-8B 35.49 47.00 39.56 50.72 63.38 11.44 48.17 37.60
Llama-3.1-8B 38.45 50.96 43.81 55.28 67.10 13.12 48.78 41.60
InternLM-2-7B 43.07 54.80 47.32 58.39 68.08 20.32 57.93 40.80
表1: Evol-Instructシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを教師モデルとして使用した場合のパフォーマンス比較。

2 Preliminaries

(Auto) Evol-Instruct.

(自動) 進化的指示生成の目的は、人工的に設計されたまたはLLMによって生成された進化的軌跡を用いて元の指示を洗練し、その複雑性を高め、より高性能なモデルの開発を促進することである。形式的には、指示進化モデル ΘesubscriptΘ𝑒\Theta_{e}roman_Θ start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT、応答生成モデル ΘrsubscriptΘ𝑟\Theta_{r}roman_Θ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT、および元の指示データセット 𝒟={(i,i)}i=1n𝒟superscriptsubscriptsubscript𝑖subscript𝑖𝑖1𝑛\mathcal{D}=\{(\mathcal{I}_{i},\mathcal{R}_{i})\}_{i=1}^{n}caligraphic_D = { ( caligraphic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , caligraphic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT が与えられたとき(ここで \mathcal{I}caligraphic_I\mathcal{R}caligraphic_R は指示と応答であり、n𝑛nitalic_n はデータサイズを表す)、我々は人工的に設計された方法または ΘesubscriptΘ𝑒\Theta_{e}roman_Θ start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT によって生成された進化的軌跡 𝒯𝒯\mathcal{T}caligraphic_T を用いて、より複雑で多様な進化データセット Devol={(ei=Θe(i|𝒯),ei=Θr(|ei))}i=1nsubscript𝐷𝑒𝑣𝑜𝑙superscriptsubscriptformulae-sequencesubscript𝑒𝑖subscriptΘ𝑒conditionalsubscript𝑖𝒯subscript𝑒𝑖subscriptΘ𝑟conditionalsubscript𝑒𝑖𝑖1𝑛D_{evol}=\{(\mathcal{I}_{ei}=\Theta_{e}(\mathcal{I}_{i}|\mathcal{T}),\mathcal{% R}_{ei}=\Theta_{r}(\mathcal{R}|\mathcal{I}_{ei}))\}_{i=1}^{n}italic_D start_POSTSUBSCRIPT italic_e italic_v italic_o italic_l end_POSTSUBSCRIPT = { ( caligraphic_I start_POSTSUBSCRIPT italic_e italic_i end_POSTSUBSCRIPT = roman_Θ start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT ( caligraphic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT | caligraphic_T ) , caligraphic_R start_POSTSUBSCRIPT italic_e italic_i end_POSTSUBSCRIPT = roman_Θ start_POSTSUBSCRIPT italic_r end_POSTSUBSCRIPT ( caligraphic_R | caligraphic_I start_POSTSUBSCRIPT italic_e italic_i end_POSTSUBSCRIPT ) ) } start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT を得る。

Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Supervised Model: Qwen-2-72B-Instruct
Mistral-7B-v0.3 20.15 30.94 23.84 34.41 46.93 3.26 32.32 1.80
DeepSeek-7B 35.67 47.12 39.56 50.84 44.81 2.76 36.59 34.00
Llama-3.2-3B 39.74 51.44 43.99 55.40 53.83 7.40 38.41 31.00
Llama-3-8B 34.75 45.80 37.71 48.92 63.76 10.06 43.90 35.40
Llama-3.1-8B 36.41 47.60 39.00 50.60 65.43 10.84 48.17 38.40
InternLM-2-7B 41.96 53.60 43.99 55.64 65.28 17.96 56.71 40.60
Supervised Model: Qwen-2-7B-Instruct
Mistral-7B-v0.3 25.32 37.17 29.76 41.01 47.31 2.20 32.93 12.00
DeepSeek-7B 36.41 48.56 39.37 51.32 48.07 3.82 35.37 33.20
Llama-3.2-3B 43.81 55.16 47.87 58.27 56.56 7.18 39.63 31.40
Llama-3-8B 38.92 48.33 43.81 52.19 63.91 8.66 45.73 38.40
Llama-3.1-8B 34.75 45.80 39.93 51.08 68.76 14.02 46.34 38.60
InternLM-2-7B 44.12 55.16 48.62 58.73 66.87 19.60 58.54 41.40
表2: 進化的指示生成シナリオにおいて、Qwen-2-7B-InstructとQwen-2-72B-Instructを教師あり学習モデルとして使用した場合の性能比較。

AutoIF.

AutoIFの目的は、少数のシード指示(制約とも見なせる)から大規模で信頼性の高い指示を自動的に構築し、指示追従能力を向上させることである。本稿では、AutoIFの最初の数ステップのみを利用する。具体的には、少数のシード指示 ssubscript𝑠\mathcal{I}_{s}caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT が与えられたとき、我々はまず教師あり学習モデル ΘΘ\Thetaroman_Θssubscript𝑠\mathcal{I}_{s}caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT に基づいて多数の検証可能な指示 newsubscript𝑛𝑒𝑤\mathcal{I}_{new}caligraphic_I start_POSTSUBSCRIPT italic_n italic_e italic_w end_POSTSUBSCRIPT を構築するよう促す。次に、ΘΘ\Thetaroman_Θ={s,new}subscript𝑠subscript𝑛𝑒𝑤\mathcal{I}=\{\mathcal{I}_{s},\mathcal{I}_{new}\}caligraphic_I = { caligraphic_I start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT , caligraphic_I start_POSTSUBSCRIPT italic_n italic_e italic_w end_POSTSUBSCRIPT } に対応する検証関数 f𝑓fitalic_f とテストケース c𝑐citalic_c を生成するよう促す。最後に、交差検証を実施して最終的なスケーラブルで信頼性の高い指示 final={|f(,c)=True}subscript𝑓𝑖𝑛𝑎𝑙conditional-set𝑓𝑐𝑇𝑟𝑢𝑒\mathcal{I}_{final}=\{\mathcal{I}|f(\mathcal{I},c)=True\}caligraphic_I start_POSTSUBSCRIPT italic_f italic_i italic_n italic_a italic_l end_POSTSUBSCRIPT = { caligraphic_I | italic_f ( caligraphic_I , italic_c ) = italic_T italic_r italic_u italic_e } を得る。

3 RQ1: Do SLMs Perform Better than LLMs in Evolving Instructions?

本節では、SLMの複雑かつ多様な指示を進化させる潜在能力を、Evol-Instruct、AutoIF、Auto Evol-Instructの3つの異なるシナリオにわたって調査する。一連の包括的な実験と分析を通じて、我々はRQ1で提起された問題に答えることを試みる。明確にするために、SLMとLLMによって進化した指示データをそれぞれSLM-InstおよびLLM-Instと呼ぶこととする。3つのシナリオの実装詳細および我々の実験のハイパーパラメータは、付録A.1に記載されている。

3.1 Evol-Instruct Scenario

本節では、主にSLMがLLMと比較してより複雑で挑戦的な指示データを進化させることができるかに焦点を当てる。

Seed Datasets.

(Xu et al., 2024a; Zeng et al., 2024)に従い、我々は指示追従、数学的推論、コード生成のために以下のシードデータセットを使用する:(1) Alpaca (Taori et al., 2023)、(2) GSM8K Train (Cobbe et al., 2021)、(3) Code Alpaca (Chaudhary, 2023)。より詳細な情報は付録A.2に記載されている。

Evaluation Benchmarks and Metrics.

我々は指示追従能力を評価するためにIFEval (Zhou et al., 2023b)を、数学的推論能力を評価するためにGSM8KとMATH (Hendrycks et al., 2021b)を、コード生成性能を評価するためにHumanEval (Chen et al., 2021)とMBPP (Austin et al., 2021)を使用する。詳細な情報については、付録A.3を参照されたい。

Refer to caption
図1: Evol-Instructシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを各ラウンドの教師モデルとして使用した、3回の指示進化におけるLlama-3-8Bの性能比較。
Refer to caption
図2: Evol-Instructシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを各ラウンドの教師モデルとして使用した、3回の進化中に進化した指示の難易度分布。
Refer to caption
図3: Qwen-2.5シリーズモデル間の性能比較。詳細な結果は表11に記載されている。

Results of Evol-Instruct.

我々は、Llama-3.1 (Dubey et al., 2024)とQwen-2 (Yang et al., 2024)モデルシリーズを使用して、2セットの実験を実施する。このアプローチは、各モデルシリーズに特有の潜在的バイアスを排除し、結論の一般化可能性を確保するのに役立つ。具体的には、我々はLlama-3.1-8B-InstructとQwen-2-7B-InstructをSLMとして使用し、Llama-3.1-70B-InstructとQwen-2-72B-Instructを指示進化のためのLLMとして使用する。生成された応答が実験の結論に影響を与えないようにするため、我々は一貫してQwen-2.5-72B-Instruct (Team, 2024)を応答生成器として使用する。

1と表2は、LlamaとQwenモデルファミリーを使用したSLM-InstLLM-Instのベンチマーク結果の比較分析を示しており、以下の主要な洞察を強調している111シード指示データの性能と温度の影響に関するより多くの結果と分析は、付録A.4に記載されている。

(1) 我々は、SLM-Instが指示追従、数学的推論、コード生成にわたってLLM-Instを上回り、LlamaとQwenの両モデルファミリーにおいて優れた全体的な性能を示すことを発見した。

(2) より複雑で難しい指示データは、指示追従能力のより効果的な改善につながる(Dong et al., 2024)。我々の結果は、SLM-InstがIFEvalにおいてLLM-Instを大きく上回ることを示しており、SLMがLLMと比較してより複雑な指示を生成する能力を強調している。

Impact of Evolution Iteration.

1は、Llama-3.1シリーズを用いた3ラウンドの進化後のLlama-3-8Bの性能を示している(詳細な結果は表10に記載されている)。Iter 0はシード指示データの性能を表しており、我々は以下の主要な洞察を公開する。

(1) 我々は、進化の最初の2ラウンドにおいて、SLM-Instが一貫してLLM-Instを上回ることを発見した。特に、指示追従に関しては、LLM-Instが負の成長を経験しており、SLMがLLMよりも複雑な指示の生成において優れていることをさらに証明している。

(2) 3ラウンド目の進化における性能は興味深い現象を示している。SLM-Instは数学的推論において引き続き良好な性能を示す一方で、指示追従とコード生成の両方で大幅な低下が見られる。(Xu et al., 2024b)に従い、我々はQwen-2.5-72B-Instructを使用して各ラウンドで進化した指示の難易度を評価し、図2に示している。我々は、3ラウンド目のSLM-Instの難易度が過度に高いことを発見した。例えば、Alpacaの3ラウンド目のSLM-Instでは、指示の約70%が「非常に難しい」と分類されている。このような過度に複雑で理解困難な指示が性能の低下をもたらしている。さらなるデータ分析と評価プロンプトのテンプレートは、付録A.5と図17に記載されている。

(3) 我々は、2回目の反復におけるSLM-Instの複雑さが3回目の反復におけるLLM-Instの複雑さを上回り、SLM-Instもまた優れた性能を示すことを発見した。これは、我々がSLMを活用して、より少ない計算リソースと進化の反復で、より複雑で挑戦的な指示を生成しながら、同時により良い性能を達成できることを示唆している。

Scaling Experiments.

我々の発見が異なるサイズのモデル間で成り立つかをさらに検証するために、我々はQwen-2.5シリーズ内の様々なサイズのモデル(0.5Bから72Bまで)を訓練する。訓練の詳細は表7に記載されている。計算リソースの制約により、我々は0.5Bから7Bまでのモデルに対してフルファインチューニングを実施し、14Bから72Bまでのモデルに対してはLoRA (Hu et al., 2022)を適用する。追加のバイアスを導入することを避けるため、我々はQwen-2.5シリーズモデルの訓練中に応答生成器をLlama-3.1-70B-Instructに切り替える。図3に示すように、我々は指示追従評価において、SLM-Instが0.5Bと1.5BモデルでLLM-Instよりもわずかに性能が劣ることを発見した。我々は、これがAlpacaで進化した指示が非常に挑戦的であり、より小さなモデルは能力が低いため指示を理解するのに苦労し、性能の差異につながると考えている。しかし、他の評価では、SLM-Instが一貫してより良い性能を示しており、これは我々の発見をさらに裏付けている。

発見1 SLMはLLMよりも複雑で挑戦的な指示を進化させることができる。
Model IFEval FollowBench (HSR) Common Abilities
Pr.(S) In.(S) Pr.(L) In.(L) Level 1 Level 2 Level 3 Level 4 Level 5 Avg. C-Eval MMLU HumanEval GSM8K
Supervision Model: Llama-3.1-70B-Instruct
Llama-3.2-3B 40.85 51.92 42.33 53.84 61.17 57.59 50.55 33.09 26.74 45.83 41.37 52.65 29.88 27.07
Llama-3-8B 37.71 50.00 39.19 52.04 49.64 46.60 41.56 27.05 22.37 37.44 41.87 51.14 26.83 37.76
Llama-3.1-8B 41.96 53.36 42.70 54.20 51.77 45.60 45.04 34.85 26.61 40.78 44.50 56.39 31.10 38.21
Qwen-2-7B 41.96 53.60 43.62 55.64 72.18 62.45 56.43 41.31 35.42 53.56 81.08 55.71 57.32 79.68
Qwen-2.5-7B 49.17 60.31 50.46 61.51 78.88 73.78 61.50 51.99 45.42 62.31 80.46 58.39 67.68 85.90
InternLM-2-7B 46.21 56.71 48.06 58.63 68.89 62.23 54.17 44.27 42.06 54.33 60.11 60.59 65.35 50.00
Supervision Model: Llama-3.1-8B-Instruct
Llama-3.2-3B 43.62 54.20 46.95 57.07 56.95 61.46 50.20 37.65 34.16 48.08 40.56 49.08 25.00 29.87
Llama-3-8B 41.04 51.32 42.88 53.11 62.99 54.38 49.29 32.21 32.21 46.21 43.49 55.63 37.20 45.26
Llama-3.1-8B 42.51 54.92 44.73 56.71 63.99 58.15 53.29 39.49 36.02 50.19 43.77 58.32 32.32 47.92
Qwen-2-7B 44.92 55.76 47.50 58.39 78.75 63.30 52.31 50.28 43.08 57.54 80.11 56.84 65.24 79.53
Qwen-2.5-7B 50.09 59.59 52.50 61.75 77.86 70.22 59.86 53.35 47.18 61.69 79.74 60.17 72.56 84.69
InternLM-2-7B 47.50 57.67 50.83 61.15 74.73 66.16 61.94 54.10 46.28 60.64 63.03 63.16 70.96 54.27
表3: AutoIFシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを教師モデルとして使用した場合の性能比較。

3.2 AutoIF Scenario

本節では、主にSLMがLLMと比較してより多様な指示データを生成できるかに焦点を当てる。

Evaluation Benchmarks and Metrics.

我々はAutoIFで使用された評価ベンチマークを完全に踏襲する。具体的には、IFEvalとFollowBench (Jiang et al., 2024) を使用して指示追従能力を評価する222Microsoft Azure OpenAI GPT-4 APIを使用する。。また、C-Eval (Huang et al., 2023)、MMLU (Hendrycks et al., 2021a)、GSM8K、HumanEvalでモデルを評価し、その能力の包括的な評価を得る。詳細については、付録A.3を参照されたい。

Results of AutoIF.

我々は指示の合成にLlama-3.1シリーズモデルを使用し、AutoIFシナリオにおける応答の生成にQwen-2.5-72B-Instructを採用する。表3に示すように、IFEvalとFollowBenchの指示追従ベンチマークにおいて、SLMによって拡張された指示データはより良い性能を達成した。特にFollowBenchでは、SLM-InstはLlama-3-8BとLlama-3.1-8Bに対して約10%の改善を達成している。一方、一般的な能力においても、SLM-Instは競争力のある性能を示している。

Refer to caption
図4: AutoIFシナリオにおけるLlama-3.1-8B-InstructとLlama-3.1-70B-Instructによって生成された指示の最小近傍距離の分布。

AutoIFは、手動で作成された少数のシード指示から始まり、モデルはそれらから着想を得て多数の新しい指示を生成し、その品質を確保するための検証を行う。生成された指示は複数回の検証を経ているため、その多様性はさらに重要となる。(Xu et al., 2024b)に従い、我々はall-mpnet-base-v2 (Song et al., 2020)を使用して、埋め込み空間における最小近傍距離(MND)を通じて類似性を測定する。特に、低いMNDを持つサンプルの数が多いことは、データセット内の多様性が乏しいことを示唆する。図4は、SLM-Instがより大きなMNDを持つサンプルを多く有しており、LLM-Instよりも高い多様性を示していることを示している。

発見2 SLMはLLMよりも多様な指示を生成できる。
Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Supervised Model: Llama-3.1-70B-Instruct
Llama-3.2-3B 36.60 48.68 39.00 51.08 53.60 7.56 35.37 33.00
Llama-3-8B 35.86 47.60 38.63 50.24 63.91 9.18 38.41 32.40
Llama-3.1-8B 36.97 47.60 40.30 51.08 66.11 11.68 40.85 40.40
Supervised Model: Llama-3.1-8B-Instruct
Llama-3.2-3B 45.47 57.43 50.28 61.27 56.48 8.42 38.41 34.40
Llama-3-8B 37.34 49.64 39.74 51.56 67.40 12.26 43.90 34.80
Llama-3.1-8B 38.08 49.76 40.48 52.40 69.52 15.62 51.22 38.80
表4: Auto Evol-Instructシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを教師モデルとした場合の性能比較。

3.3 Auto Evol-Instruct Scenario

本節では、主にSLMがLLMと比較してより効果的な指示を自動的に進化させることができるかに焦点を当てる。

Results of Auto Evol-Instruct.

4に示すように、我々はSLMによって自動的に進化した指示データが、Llamaシリーズモデル全体でLLMよりも一貫して優れた性能を示すことを発見した。さらに、我々はQwen-2.5-72B-Instructモデルに、SLMとLLMによって生成された軌跡からキーワードを要約および重複排除するよう促した(プロンプトテンプレートは図18に記載)。その結果、SLMによって生成された軌跡の数がLLMよりも6.9%多いことが判明し、SLMがより多様な進化軌跡を設計できることが改めて強調された。これにより、より複雑で多様な指示が生み出されている。

発見3 SLMはLLMよりも効果的な指示を自動的に進化させることができる。
Refer to caption
図5: 進化指示シナリオにおける出力トークン確率分布の比較。

4 RQ2: Why Do SLMs Outperform LLMs in Evolving Instructions?

本節では、主にモデル推論と実世界のケースの観点から、SLMがなぜより良い性能を示すかを分析する。

Comparison of Token Distributions.

我々の先行実験の結果は、SLMがより複雑で多様な指示を進化させ、生成する能力があることを示している。我々は、これがLLMの優れた指示追従能力によるものであると仮説を立てている。LLMは指示に従う際により狭い出力空間(過剰な自信)を生み出し、結果として生成される新しい指示の多様性と複雑性が低下すると考えられる。この仮説を検証するために、我々はEvol-Instructシナリオ内でLlama-3.1-8B-InstructとLlama-3.1-70B-Instructモデルを使用し、出力トークンの確率分布を取得した。各出力位置でのトップ1トークン確率を抽出し、SLMとLLM間の出力確率分布を比較した。図5に示すように、SLMのトップ1トークン出力確率がより低いことが観察され、これはSLMの出力分布がより多様であることを示唆している。これは、LLMと比較して相対的に弱い指示追従能力により、SLMがより広い出力空間を生成し、より多様で複雑な指示につながるという我々の仮説を支持している。我々はいくつかのケースも分析しており、詳細な結果は付録A.4に記載されている。

発見4 SLMはLLMよりも広い出力空間を持ち、過剰な自信を持つ可能性が低い。

5 RQ3: How Do We Determine Whether An Instruction is Effective without Instruction Tuning?

本節では、主に指示チューニングなしで指示データの効果をどのように判断するかについて議論する。

Instruction Complex-Aware IFD.

(Xu et al., 2024c)で言及されているように、既存の評価は通常、報酬モデルの使用などの応答の評価に焦点を当てており、データに対する指示の影響を無視している。最近、Li et al. (2024)は指示の質を評価するために指示追従難易度(IFD)スコアを提案した。具体的には、IFDの公式は以下の通りである。

IFDΘ(Q,A)=LΘ(A|Q)LΘ(A)subscriptIFDΘ𝑄𝐴subscript𝐿Θconditional𝐴𝑄subscript𝐿Θ𝐴\text{IFD}_{\Theta}(Q,A)=\frac{L_{\Theta}(A|Q)}{L_{\Theta}(A)}IFD start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_Q , italic_A ) = divide start_ARG italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_A | italic_Q ) end_ARG start_ARG italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_A ) end_ARG (1)

ここで、Q𝑄Qitalic_QA𝐴Aitalic_Aは指示と応答を表し、LΘ()subscript𝐿ΘL_{\Theta}(\cdot)italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( ⋅ )はモデルΘΘ\Thetaroman_Θによって決定される平均交差エントロピー損失を表す。IFDは応答生成における指示の重要性として理解できる。IFDが低いほど、モデルが既に指示を与えられた際に対応する応答を効果的に生成できるため、サンプルは訓練を必要としない。しかし、図1と表15に示されているように、指示の難易度が高すぎる場合、より高いIFDをもたらす可能性があるが、全体的な性能は期待に及ばない可能性がある。これに触発され、我々は元のIFDに指示の難易度を導入し、指示複雑性を考慮したIFD(IC-IFD)を提案する。具体的には、元のIFDスコアに指示の不確実性を導入し、以下の公式となる。

IC-IFDΘ(Q,A)=LΘ(A|Q)LΘ(Q)LΘ(A)subscriptIC-IFDΘ𝑄𝐴subscript𝐿Θconditional𝐴𝑄subscript𝐿Θ𝑄subscript𝐿Θ𝐴\text{IC-IFD}_{\Theta}(Q,A)=\frac{L_{\Theta}(A|Q)}{L_{\Theta}(Q)\cdot L_{% \Theta}(A)}IC-IFD start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_Q , italic_A ) = divide start_ARG italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_A | italic_Q ) end_ARG start_ARG italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_Q ) ⋅ italic_L start_POSTSUBSCRIPT roman_Θ end_POSTSUBSCRIPT ( italic_A ) end_ARG (2)
Metrics IFEval
Pr.(S) In.(S) Pr.(L) In.(L)
Original 33.09 44.72 36.41 48.32
Instruction Len. 29.94 39.69 33.83 43.53
Instruction PPL 27.91 39.69 32.35 44.36
IFD 30.87 43.53 36.04 47.60
IC-IFD 34.01 46.16 38.82 50.72
表5: Llama-3-8BでSLMsによって進化したAlpaca-iter3の25%における異なる指標の比較。

Performance of IC-IFD.

IC-IFDの有効性を検証するため、我々はSLMによって進化した3回目の指示データによって引き起こされる性能低下を緩和することを目指す。具体的には、指示の長さ(過度に長い指示をフィルタリング)、指示の不確実性(PPL、過度に高いPPLを持つ指示をフィルタリング)、IFD、およびIC-IFDなど、いくつかの指標を用いて上位25%の指示データを保持する。表5に示すように、指示データの25%のみを保持する条件下で、IC-IFDは完全なデータセットを上回る性能を示す一方、他の指標では様々な程度の性能低下が見られ、これによりIC-IFDの有効性が実証される。IC-IFDに関するさらなる実験は付録A.4に記載されている。

6 Related Work

指示チューニングは、大規模言語モデル(LLM)の能力を向上させるための重要な戦略となっている(Ouyang et al., 2022; OpenAI, 2023)。高品質なデータセットを作成することで、これらのモデルをより効果的に特定の目的に合わせることができる(Zhou et al., 2023a)。最近、一部の研究者は、ShareGPT (Chiang et al., 2023)やOpenAssistant (Köpf et al., 2023)のような、手動で注釈付けされたり人間が関与して開発された指示データの重要性を強調している。一方で、他の研究は最小限の人間の労力でLLMを活用して高品質なデータセットを生成することに焦点を当てている(Xu et al., 2024a; Luo et al., 2024, 2023)Wang et al. (2023)はSelf-Instructを紹介しており、これは少数の手動で作成されたシード指示から始まり、LLMを使用してこれらの指示を拡張し、最終的にモデルの能力を向上させる大規模な指示セットを生成する。Xu et al. (2024a)はEvol-Instructを提示しており、これはLLMを使用して元の指示を深さと幅の両方の進化を通じて反復的に強化し、より複雑で多様な指示データセットを生成する。Auto Evol-Instruct (Zeng et al., 2024)はさらに人間の関与を排除し、LLMが元の指示に基づいて自律的に進化の軌跡を設計できるようにしている。AutoIF (Dong et al., 2024)は、LLMが指示の品質が必要な基準を満たしているかどうかを検証するための評価コードを生成できるコードフィードバックメカニズムを導入している。Xu et al. (2024b)は、モデルに大量の指示データを生成させるための単一のプロンプトのみを提供している。現在の研究は主に、GPT-4 (OpenAI, 2023)のようなより大規模な言語モデルを使用して複雑な指示を構築することに焦点を当てている。最近では、Xu et al. (2024c)が応答生成器としてのさまざまな規模のモデルのパフォーマンスの違いを探っている。対照的に、我々は複雑な指示を進化させる上での小規模言語モデルの可能性に焦点を当てている。この革新は指示構築に関連するコストを削減するだけでなく、より重要なことに、小規模モデルに内在する重要な能力を強調し、将来の研究に貴重な洞察を提供する包括的な評価と探索を提供している。

7 Conclusion

本稿では、指示文の進化におけるSLMとLLMの性能を比較した。広範な実験により、SLMがLLMよりも低い計算コストでより効果的な指示文を合成できることが実証された。モデル出力分布の分析を通じて、我々はSLMがより広範な出力空間を示し、より複雑で多様な指示文につながることを観察した。さらに、我々は元のIFDに指示文の複雑さをペナルティ項として導入し、IC-IFDを提案した。これにより、指示文チューニングを必要とせずに、指示文データの有効性をより正確に評価することが可能となった。我々の研究は、指示文データ合成におけるSLMの将来の研究の基礎を築き、さらなる探求のための基本的な理解を提供するものである。

Limitations

我々の研究は、包括的な実験を通じてSLMがより優れた指示進化能力を持つという貴重な洞察を提供しているが、今後の研究において探求すべきいくつかの方向性がある。

(1) 我々は指示追従、数学的推論、コード生成の分野でのみ実験を行った。より広範な領域については焦点を当てておらず、これらの分野には今後の研究を必要とする興味深い発見があるかもしれない。

(2) 本稿は、SLMとLLMの指示セット進化における比較に焦点を当てており、SLMの指示データセット全体の合成における潜在能力を探求するものではない。SLMの能力を指示データ合成パイプライン全体にわたって調査する将来の研究は、有望かつ刺激的な方向性となるであろう。

(3) 我々が提案するIC-IFDは、高難度の指示の出現に伴い性能が低下するという観察に基づいており、これにより元のIFDに指示の複雑さをペナルティ項として導入している。将来的には、指示チューニングなしで指示データの有効性をより正確に評価する方法についてさらなる探求が価値あるものとなるであろう。

Acknowledgments

本研究は、中国国家自然科学基金(62072052)および国家自然科学基金革新研究グループプロジェクト(61921003)の支援を受けている。同時に、我々は北京人工知能研究院(BAAI)からの学術的および計算機的支援に深く感謝する。これらの支援は本研究の成功裏の完遂に不可欠であった。

References

  • Austin et al. (2021) Jacob Austin, Augustus Odena, Maxwell I. Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie J. Cai, Michael Terry, Quoc V. Le, and Charles Sutton. 2021. Program synthesis with large language models. CoRR, abs/2108.07732.
  • Bi et al. (2024) Xiao Bi, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, Kai Dong, Qiushi Du, Zhe Fu, Huazuo Gao, Kaige Gao, Wenjun Gao, Ruiqi Ge, Kang Guan, Daya Guo, Jianzhong Guo, Guangbo Hao, Zhewen Hao, Ying He, Wenjie Hu, Panpan Huang, Erhang Li, Guowei Li, Jiashi Li, Yao Li, Y. K. Li, Wenfeng Liang, Fangyun Lin, Alex X. Liu, Bo Liu, Wen Liu, Xiaodong Liu, Xin Liu, Yiyuan Liu, Haoyu Lu, Shanghao Lu, Fuli Luo, Shirong Ma, Xiaotao Nie, Tian Pei, Yishi Piao, Junjie Qiu, Hui Qu, Tongzheng Ren, Zehui Ren, Chong Ruan, Zhangli Sha, Zhihong Shao, Junxiao Song, Xuecheng Su, Jingxiang Sun, Yaofeng Sun, Minghui Tang, Bingxuan Wang, Peiyi Wang, Shiyu Wang, Yaohui Wang, Yongji Wang, Tong Wu, Y. Wu, Xin Xie, Zhenda Xie, Ziwei Xie, Yiliang Xiong, Hanwei Xu, R. X. Xu, Yanhong Xu, Dejian Yang, Yuxiang You, Shuiping Yu, Xingkai Yu, B. Zhang, Haowei Zhang, Lecong Zhang, Liyue Zhang, Mingchuan Zhang, Minghua Zhang, Wentao Zhang, Yichao Zhang, Chenggang Zhao, Yao Zhao, Shangyan Zhou, Shunfeng Zhou, Qihao Zhu, and Yuheng Zou. 2024. Deepseek LLM: scaling open-source language models with longtermism. CoRR, abs/2401.02954.
  • Cai et al. (2024) Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, Xiaoyi Dong, Haodong Duan, Qi Fan, Zhaoye Fei, Yang Gao, Jiaye Ge, Chenya Gu, Yuzhe Gu, Tao Gui, Aijia Guo, Qipeng Guo, Conghui He, Yingfan Hu, Ting Huang, Tao Jiang, Penglong Jiao, Zhenjiang Jin, Zhikai Lei, Jiaxing Li, Jingwen Li, Linyang Li, Shuaibin Li, Wei Li, Yining Li, Hongwei Liu, Jiangning Liu, Jiawei Hong, Kaiwen Liu, Kuikun Liu, Xiaoran Liu, Chengqi Lv, Haijun Lv, Kai Lv, Li Ma, Runyuan Ma, Zerun Ma, Wenchang Ning, Linke Ouyang, Jiantao Qiu, Yuan Qu, Fukai Shang, Yunfan Shao, Demin Song, Zifan Song, Zhihao Sui, Peng Sun, Yu Sun, Huanze Tang, Bin Wang, Guoteng Wang, Jiaqi Wang, Jiayu Wang, Rui Wang, Yudong Wang, Ziyi Wang, Xingjian Wei, Qizhen Weng, Fan Wu, Yingtong Xiong, Xiaomeng Zhao, and et al. 2024. Internlm2 technical report. CoRR, abs/2403.17297.
  • Chaudhary (2023) Sahil Chaudhary. 2023. Code alpaca: An instruction-following llama model for code generation. https://github.com/sahil280114/codealpaca.
  • Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondé de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Joshua Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. 2021. Evaluating large language models trained on code. CoRR, abs/2107.03374.
  • Chiang et al. (2023) Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. 2023. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality.
  • Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. 2021. Training verifiers to solve math word problems. CoRR, abs/2110.14168.
  • Contributors (2023) OpenCompass Contributors. 2023. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass.
  • Dong et al. (2024) Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, and Jingren Zhou. 2024. Self-play with execution feedback: Improving instruction-following capabilities of large language models. CoRR, abs/2406.13542.
  • Dubey et al. (2024) Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurélien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Rozière, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Grégoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel M. Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, and et al. 2024. The llama 3 herd of models. CoRR, abs/2407.21783.
  • Dubois et al. (2023) Yann Dubois, Chen Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. 2023. Alpacafarm: A simulation framework for methods that learn from human feedback. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023.
  • Hendrycks et al. (2021a) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2021a. Measuring massive multitask language understanding. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net.
  • Hendrycks et al. (2021b) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. 2021b. Measuring mathematical problem solving with the MATH dataset. In Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021, December 2021, virtual.
  • Hu et al. (2022) Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. Lora: Low-rank adaptation of large language models. In The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022. OpenReview.net.
  • Huang et al. (2023) Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu, Maosong Sun, and Junxian He. 2023. C-eval: A multi-level multi-discipline chinese evaluation suite for foundation models. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023.
  • Jiang et al. (2023) Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de Las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, and William El Sayed. 2023. Mistral 7b. CoRR, abs/2310.06825.
  • Jiang et al. (2024) Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, and Wei Wang. 2024. Followbench: A multi-level fine-grained constraints following benchmark for large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024, Bangkok, Thailand, August 11-16, 2024, pages 4667–4688. Association for Computational Linguistics.
  • Köpf et al. (2023) Andreas Köpf, Yannic Kilcher, Dimitri von Rütte, Sotiris Anagnostidis, Zhi Rui Tam, Keith Stevens, Abdullah Barhoum, Duc Nguyen, Oliver Stanley, Richárd Nagyfi, Shahul ES, Sameer Suri, David Glushkov, Arnav Dantuluri, Andrew Maguire, Christoph Schuhmann, Huu Nguyen, and Alexander Mattick. 2023. Openassistant conversations - democratizing large language model alignment. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023.
  • Kwon et al. (2023) Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. 2023. Efficient memory management for large language model serving with pagedattention. In Proceedings of the 29th Symposium on Operating Systems Principles, SOSP 2023, Koblenz, Germany, October 23-26, 2023, pages 611–626. ACM.
  • Li et al. (2024) Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, and Jing Xiao. 2024. From quantity to quality: Boosting LLM performance with self-guided data selection for instruction tuning. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), NAACL 2024, Mexico City, Mexico, June 16-21, 2024, pages 7602–7635. Association for Computational Linguistics.
  • Liu et al. (2024) Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, and Junxian He. 2024. What makes good data for alignment? A comprehensive study of automatic data selection in instruction tuning. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.
  • Luo et al. (2023) Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, and Dongmei Zhang. 2023. Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct. CoRR, abs/2308.09583.
  • Luo et al. (2024) Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. 2024. Wizardcoder: Empowering code large language models with evol-instruct. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.
  • OpenAI (2023) OpenAI. 2023. GPT-4 technical report. CoRR, abs/2303.08774.
  • Ouyang et al. (2022) Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F. Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022.
  • Song et al. (2020) Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, and Tie-Yan Liu. 2020. Mpnet: Masked and permuted pre-training for language understanding. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.
  • Taori et al. (2023) Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. 2023. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca.
  • Team (2024) Qwen Team. 2024. Qwen2.5: A party of foundation models.
  • Wang et al. (2023) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2023. Self-instruct: Aligning language models with self-generated instructions. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9-14, 2023, pages 13484–13508. Association for Computational Linguistics.
  • Xu et al. (2024a) Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Qingwei Lin, and Daxin Jiang. 2024a. Wizardlm: Empowering large pre-trained language models to follow complex instructions. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.
  • Xu et al. (2024b) Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, and Bill Yuchen Lin. 2024b. Magpie: Alignment data synthesis from scratch by prompting aligned llms with nothing. CoRR, abs/2406.08464.
  • Xu et al. (2024c) Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, and Radha Poovendran. 2024c. Stronger models are not stronger teachers for instruction tuning. Preprint, arXiv:2411.07133.
  • Yang et al. (2024) An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, and Zhihao Fan. 2024. Qwen2 technical report. CoRR, abs/2407.10671.
  • Zeng et al. (2024) Weihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, and Weizhu Chen. 2024. Automatic instruction evolving for large language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, EMNLP 2024, Miami, FL, USA, November 12-16, 2024, pages 6998–7018. Association for Computational Linguistics.
  • Zhang et al. (2023) Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu, and Guoyin Wang. 2023. Instruction tuning for large language models: A survey. CoRR, abs/2308.10792.
  • Zhao et al. (2024) Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, and Yuntian Deng. 2024. Wildchat: 1m chatgpt interaction logs in the wild. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.
  • Zheng et al. (2024a) Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric P. Xing, Joseph E. Gonzalez, Ion Stoica, and Hao Zhang. 2024a. Lmsys-chat-1m: A large-scale real-world LLM conversation dataset. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net.
  • Zheng et al. (2024b) Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo, and Yongqiang Ma. 2024b. Llamafactory: Unified efficient fine-tuning of 100+ language models. CoRR, abs/2403.13372.
  • Zhou et al. (2023a) Chunting Zhou, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, and Omer Levy. 2023a. LIMA: less is more for alignment. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023.
  • Zhou et al. (2023b) Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. 2023b. Instruction-following evaluation for large language models. CoRR, abs/2311.07911.

Appendix A Appendix

A.1 Experimental Details

Evolution Details of Evol-Instruct.

101112に示すように、我々が使用した指示進化プロンプトは(Xu et al., 2024a; Luo et al., 2024)から派生したものであり、若干の修正を加えている。Alpacaデータセットに対しては、深化具体化制約の追加推論ステップの追加という4つの深化型進化方法に加えて、1つの幅広型進化方法を採用している。しかし、GSM8K TrainとCode Alpacaデータセットに対しては、幅広型方法を除外し、4つの深化型方法のみを使用している。公平な比較を確保するため、これらの進化方法を各元の指示に対して固定された順序で適用し、元のEvol-Instructのようにランダムに選択することはしていない。この戦略は、同じ指示の進化における変動を排除し、偏った実験結果の可能性を減らすことを目的としている。表1と表2の結果は、シード指示の1ラウンドの進化後に得られたものである。

Evolution Details of AutoIF.

AutoIFのアプローチに従い、我々は通常、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを使用して指示拡張と検証のステップを実行し、それぞれ780と420の指示を生成している。AutoIFがフィルタリングのために複数の検証ステップを必要とするため、生成される指示の数は変動する。公平性を確保するため、我々はSLMによって生成された780の指示から無作為に420の指示を選択して比較している。これらの指示は、その後ShareGPTからのクエリと連結され、後続の訓練のための6,720の指示データのデータセットを作成している。

Evolution Details of Auto Evol-Instruct.

我々は、指示を進化させるための進化軌道を自動的に設計する上で、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructの性能を比較している。Auto Evol-Instruct (Zeng et al., 2024)のプロンプトテンプレート(図15参照)を使用し、モデルに進化軌道の設計と指示の自律的な進化を促している。追加のバイアスを導入することを避けるため、我々はAuto Evol-Instructから最適化段階を除外している。実験設定と評価ベンチマークは、セクション3.1のものと一致している。モデルが時折指定された出力形式に従わず、指示抽出エラーを引き起こすため、我々は両モデルからの進化した指示の大きなセットから無作為サンプリングを行い、一貫した量の指示データを確保している。また、Qwen-2.5-72B-Instructを使用して応答を生成している。最後に、Alpaca、GSM8K、Code Alpacaデータセットに対して、我々は自動進化とサンプリングを実施し、それぞれ40,483、6,200、15,533の指示データポイントを得ている。

Implementation Details

公平な比較のため、我々のすべての実験は一貫したデータ量を維持している。指示データの構築中、我々はvLLMフレームワーク(Kwon et al., 2023)を活用し、温度0.7とtop_p値0.95を使用して加速している。モデルの訓練には、LLaMA-Factoryフレームワーク(Zheng et al., 2024b)を使用し、グローバルバッチサイズ64、カットオフ長2048、学習率2e-5を採用し、3エポックにわたるコサイン学習率スケジュールに従っている。チェックポイントの選択は行わず、代わりにすべてのモデルは最後に保存されたチェックポイントを使用して評価されている。すべての実験は8台の×\times× NVIDIA Tesla A100 GPUで実施されている。

Base Models.

Evol-Instructシナリオでは、我々はLlama-3.2-3B、Llama-3.1-8B、Llama-3-8B、DeepSeek-7B (Bi et al., 2024)、Mistral-7B-v0.3 (Jiang et al., 2023)、InternLM-2-7B (Cai et al., 2024)モデルを含むLlamaシリーズモデル(Dubey et al., 2024)をファインチューニングしている。AutoIFシナリオでは、Evol-Instructと同様にLlamaシリーズモデルを使用し、さらにQwen-2.5-7BとQwen-2-7Bを含むQwenシリーズ(Yang et al., 2024)モデル、およびInternLM-2-7Bも使用している。Auto Evol-Instructでは、Llamaシリーズモデルの性能を評価している。

More Hyperparameter Details.

Hyperparameter Value
Learning Rate 2×1052superscript1052\times 10^{-5}2 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT
Number of Epochs 3
Number of Devices 8
Per-device Batch Size 1
Gradient Accumulation Steps 8
Learning Rate Scheduler cosine
Warmup Ratio 0.03
Max Sequence Length 2048
表6: Evol-Instruct、AutoIF、Auto Evol-Instructシナリオで使用されたハイパーパラメータ。
Hyperparameter Value
General Hyperparameters
Number of Epochs 2
Number of Devices 8
Per-device Batch Size 1
Gradient Accumulation Steps 8
Learning Rate Scheduler cosine
Warmup Ratio 0.03
Max Sequence Length 2048
LoRA Hyperparameters
LoRA Rank 8
LoRA Alpha 8
LoRA Target all module
LoRA Dropout 0.0
Qwen-2.5-0.5B and 1.5B
Learning Rate 1×1051superscript1051\times 10^{-5}1 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT
Qwen-2.5-3B and 7B
Learning Rate 7×1067superscript1067\times 10^{-6}7 × 10 start_POSTSUPERSCRIPT - 6 end_POSTSUPERSCRIPT
Qwen-2.5-14B, 32B and 72B
Learning Rate 5×1055superscript1055\times 10^{-5}5 × 10 start_POSTSUPERSCRIPT - 5 end_POSTSUPERSCRIPT
表7: Qwen-2.5シリーズモデルのファインチューニングに使用されたハイパーパラメータ。

我々は表6に教師あり微調整の詳細なハイパーパラメータを提供している。IFEvalとFollowBenchはそれぞれのリポジトリを使用して評価されているが、他のすべての評価はOpenCompass (Contributors, 2023)フレームワークを使用して実施されている。また、計算効率を向上させ評価手順を迅速化するため、評価プロセス全体を通じてvLLMが推論加速に採用されている。

A.2 Detailed Information of Seed Datasets

Seed Data
Dataset Datasize
Instruction Following Alpaca 51,983
Mathematical Reasoning GSM8K Train 7,473
Code Generation Code Alpaca 20,022
表8: Evol-InstructとAuto-Evol-Instructシナリオで使用されたシード指示データの統計。

Evol-InstructionとAuto Evol-Instructシナリオにおいて、我々は指示追従、数学的推論、コード生成のために以下のシードデータセットを活用している:(1) Alpaca、約52Kの指示追従データポイントを含むデータセット、(2) GSM8K Train、約7Kの高品質で言語的に多様な小学校レベルの数学の文章題を含むデータセット、(3) Code Alpaca、約20Kのサンプルを含むコード生成データセット。表8にシードデータセットの統計情報を示す。

AutoIFシナリオでは、AutoIF論文で説明されているセットアップに従い、著者が提供したシード指示とShareGPTからのクエリを使用して指示を構築している。

A.3 Detailed Information of Evaluations

我々のモデルの指示追従能力を評価するために、IFEvalとFollowBenchを含むいくつかのベンチマークを使用している。IFEvalは約500のプロンプトにわたる25種類の検証可能な指示で構成されており、FollowBenchは5段階の難易度を持つ細分化された制約ベースの指示追従ベンチマークである。これには、強力なLLMによる評価を必要とする多様なオープンエンドの指示が含まれる。我々はプロンプトレベルと指示レベルの両方で厳密および緩和された精度指標を報告し、FollowBenchについては特にHard Satisfaction Rate (HSR)を報告する。

指示追従ベンチマークに加えて、我々は他のタスクでもモデルを評価している。数学的推論については、GSM8KとMATHを使用している。GSM8Kは小学校レベルの数学問題で構成されており、MATHはより難しい数学問題を提示する。両データセットについて精度スコアを報告する。コード生成については、HumanEvalとMBPPを使用してモデルを評価し、pass@1指標を報告する。また、様々な分野にわたるモデルの能力を包括的に評価するために、C-EvalとMMLUでも我々のモデルを評価している。

A.4 More Experimental Results

Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Seed instruction data
Mistral-7B-v0.3 17.01 26.86 19.04 29.14 27.07 0.12 10.20 8.80
DeepSeek-7B 22.00 34.05 23.48 35.73 44.05 0.56 25.61 33.80
Llama-3.2-3B 22.55 34.17 25.88 37.65 46.40 0.56 28.05 32.20
Llama-3-8B 23.11 32.97 24.77 35.13 53.68 0.22 25.00 28.60
Llama-3.1-8B 27.54 38.13 28.65 39.21 56.41 7.56 29.88 31.80
InternLM-2-7B 32.72 45.08 35.30 48.08 61.87 10.28 42.07 40.00
表9: シード指示データの結果。

Seed Instruction Data Results.

9は、Evol-InstructとAuto Evol-Instructシナリオで使用されたシード指示データセットの実験結果を示している。我々は、これらのシードデータで訓練されたモデルの性能が最適ではないことを観察した。我々は、これらのシードデータの品質が、現在の高度なベースモデルの性能をさらに向上させるには不十分であると主張する。

Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Supervised Model: Llama-3.1-70B-Instruct
Iteration 1 33.83 46.28 36.41 49.28 63.00 7.62 43.90 36.20
Iteration 2 32.53 43.76 34.20 46.16 64.59 10.04 42.07 36.60
Iteration 3 35.12 47.36 36.97 49.28 64.75 11.82 43.29 37.20
Supervised Model: Llama-3.1-8B-Instruct
Iteration 1 35.49 47.00 39.56 50.72 63.38 11.44 48.17 37.60
Iteration 2 36.78 48.20 40.30 50.84 64.82 11.48 48.78 39.40
Iteration 3 33.09 44.72 36.41 48.32 65.88 14.12 44.51 40.80
表10: 1を参照したLlama-3-8Bにおける異なる進化反復の詳細な性能。

Detailed Results of Multi-Iteration Evolution.

10は、図1で参照されている異なる進化反復の詳細な結果を示している。

Model Instruction Following (IFEval) Math Reasoning Code Generation
Pr.(S) In.(S) Pr.(L) In.(L) GSM8K MATH HumanEval MBPP
Supervised Model: Llama-3.1-70B-Instruct
Qwen-2.5-0.5B 18.48 32.73 22.00 35.85 40.26 16.32 30.49 27.60
Qwen-2.5-1.5B 28.84 42.67 31.98 46.04 62.32 24.06 50.00 43.20
Qwen-2.5-3B 37.89 48.56 42.70 53.60 76.12 26.44 63.41 55.40
Qwen-2.5-7B 46.21 56.83 50.64 60.79 76.12 38.14 70.73 61.60
Qwen-2.5-14B (LoRA) 40.11 54.43 48.24 61.99 87.79 49.94 75.00 67.20
Qwen-2.5-32B (LoRA) 42.88 57.31 51.20 64.15 87.79 55.02 80.49 71.20
Qwen-2.5-72B (LoRA) 50.63 68.43 57.12 70.98 91.05 58.83 82.93 76.00
Supervised Model: Llama-3.1-8B-Instruct
Qwen-2.5-0.5B 17.38 29.38 19.78 32.01 40.71 16.26 34.76 28.00
Qwen-2.5-1.5B 28.47 41.73 31.98 44.96 65.35 27.84 52.44 49.94
Qwen-2.5-3B 38.82 49.76 42.51 53.96 76.57 30.92 64.02 55.80
Qwen-2.5-7B 47.32 58.39 51.39 62.35 82.03 43.78 71.95 61.80
Qwen-2.5-14B (LoRA) 42.51 55.16 51.02 62.47 88.17 52.22 75.61 67.20
Qwen-2.5-32B (LoRA) 45.84 58.75 54.71 66.31 89.61 55.28 81.71 73.20
Qwen-2.5-72B (LoRA) 52.79 72.56 61.25 73.27 91.36 60.75 84.67 76.80
表11: 3を参照したQwen-2.5シリーズモデル間の詳細な性能。

Detailed Results of Scaling Experiments.

11は、図3に示されているモデルスケーリング実験の詳細な結果を示している。

Temperature HumanEval MBPP HumanEval MBPP
Supervised Model: Llama-3.1-70B-Instruct Supervised Model: Llama-3.1-8B-Instruct
greedy 37.20 33.40 39.63 36.40
0.1 36.59 36.40 37.80 37.60
0.3 38.41 35.20 39.63 37.80
0.5 35.98 33.40 37.80 35.80
0.7 35.98 36.00 39.02 32.80
0.9 34.76 33.00 40.24 35.80
表12: コード生成シナリオにおけるLlama-3.2-3Bの異なる温度間の性能。

The Impact of Temperatures.

進化的指示データに対する温度の影響を探るため、我々はLlama-3.1-8B-InstructとLlama-3.1-70B-Instructを異なる温度で比較した。具体的には、Code Alpacaデータをgreedy decoding(温度0)と0.1から0.9までの5つの異なる温度で進化させ、一様にQwen-2.5-72B-Instructを使用して対応する応答を生成した。表12に示すように、Llama-3.2-3Bでの訓練結果は、すべての温度においてSLMがLLMよりも一貫して優れた性能を示しており、これは我々の結論の普遍性をさらに裏付けるものである。

Refer to caption
図6: AlpacaデータセットにおけるIC-IFDとIFDの3つのデータ選択比率の性能比較。
Refer to caption
図7: AlpacaデータセットにおけるIC-IFDと完全データセットの3つのデータ選択比率の性能比較。

More Results of IC-IFD.

IC-IFDの広範な適用可能性をさらに検証するため、高難度の指示データに加えて、我々はIC-IFDとIFDメトリクスを使用して元のAlpacaデータセットの5%、10%、15%をフィルタリングし、Llama-3-8BとLlama-3.2-3Bモデルの訓練に使用した。我々はIC-IFDとIFDでフィルタリングされたデータでモデルを微調整し、AlpacaFarm (Dubois et al., 2023)からの指示を使用してその性能を評価した。生成された応答は、GPT-4を使用して勝利-引き分け-敗北の比率を決定するために評価された(評価プロンプトのテンプレートは図20に記載されている)。図6に示すように、我々は両モデルのすべての3つのデータ比率設定においてIC-IFDがIFDを一貫して上回ることを観察した。さらに、IC-IFDでフィルタリングされたデータで訓練されたモデルの性能を、完全なAlpacaデータセットで訓練されたモデルと比較した。図7に示すように、IC-IFDでフィルタリングされたデータで訓練されたモデルは、完全なデータセットで訓練されたモデルよりも優れた性能を示し、提案されたIC-IFDの有効性をさらに実証している。

Refer to caption
図8: 制約追加戦略におけるLLMとSLMの事例比較。
Refer to caption
図9: 深化戦略におけるLLMとSLMの事例比較。

Case Study.

我々は、2つの具体的な詳細な事例においてSLMとLLMの進化を比較する。図8に示すように、「制約の追加」進化軌道において、SLMの進化した指示は運動の時間がないことと食事制限ができないという2つの追加制約を組み込んでいるのに対し、LLMの進化した指示は要件が実現可能でなければならないという条件のみを追加している。同様に、「深化」進化軌道において、図9に示すように、SLMの進化した指示は著しく難しく、多数の詳細な条件を含んでおり、これはLLMの進化した指示には見られない。全体として、実際の事例から、SLMは同じ制約や軌道の下でより複雑で多様な指示を進化させることができ、より低い計算コストでより効果的な指示を達成している。

Alpaca GSM8K Train Code Alpaca
Seed Instruction 27.63 34.05 26.01
LLM-Inst Iter1 52.89 39.88 46.75
SLM-Inst Iter1 66.35 48.85 58.86
LLM-Inst Iter2 68.16 47.14 65.02
SLM-Inst Iter2 77.62 63.48 73.37
LLM-Inst Iter3 75.73 54.00 72.85
SLM-Inst Iter3 82.44 72.12 79.19
表13: Evol-Instructシナリオにおいて、Llama-3.1-8B-InstructとLlama-3.1-70B-Instructを各ラウンドの教師モデルとして使用した3回の反復中に進化した指示の難易度スコア。

A.5 Further Analysis

Difficulty Scores of Evol-Instruct.

我々は図19に示すプロンプトテンプレートを使用して、Qwen-2.5-72B-Instructに Evol-Instructシナリオにおける3ラウンドのデータの複雑性スコアを評価させた。表13に示すように、各ラウンドにおいてSLM-Instが一貫してLLM-Instよりも複雑性スコアで上回っていることが分かった。興味深いことに、SLM-Instの2回目の反復はLLM-Instの3回目の反復よりも難しく、これは図1の実験で示されているように、SLM-Instの2回目の反復の全体的なパフォーマンスがLLM-Instの3回目の反復を上回っていることからも実証されている。

Iteration Average Reward
Alpaca GSM8K Code Alpaca
Supervised Model: Llama-3.1-70B-Instruct
Iteration 1 1.54 0.74 1.10
Iteration 2 1.68 0.73 1.19
Iteration 3 1.56 0.69 1.14
Supervised Model: Llama-3.1-8B-Instruct
Iteration 1 1.59 1.01 1.23
Iteration 2 1.54 0.79 0.96
Iteration 3 1.42 0.97 1.03
表14: 異なる反復進化指示データ間の平均報酬の比較。

Quality Score Evaluated by Reward Model.

我々はまた、InternLM-2-7B-Rewardを報酬モデルとして使用し、SLMとLLMの両方の進化した指示の平均スコアを評価した。具体的には、進化したプロンプトテンプレート(図10および12に示す)を与え、次に報酬モデルを使用してSLMとLLMによってそれぞれ生成された進化した指示の報酬を評価し、指示セットの平均報酬を得た。表14に示すように、報酬モデルによって評価された指示の全体的なスコアは、訓練段階でのパフォーマンスとおおよそ一致していることが分かった。しかし、一部のデータセットでは、指示の品質を正確に反映できていなかった。さらに、報酬モデルを使用しても指示の品質を直接評価することはできない。代わりに、指示を構築する際に使用されたメタ指示が必要である。したがって、報酬モデルは指示の評価にうまく適用できない。

Datasets IFD (%) IC-IFD (%) Performance
SLMs (Alpaca iter 3) 83.04 35.89 40.64
LLMs (Alpaca iter 3) 82.03 37.05 42.18
表15: SLMとLLMの3回目の進化したAlpacaデータセットにおけるIFDとIC-IFDの比較。

Comparison of IFD and IC-IFD.

我々はSLMとLLMの両方の3回目の進化したAlpacaデータセットを分析した。具体的には、両データセットの各サンプルのIFDとIC-IFDスコアを計算し、それらの平均スコアを比較した。表15に示すように、Llama-3-8Bを使用して2つのデータセットにおけるIFEvalの平均パフォーマンスを評価した。指示の難易度が高すぎる場合、IFDスコアが増加する傾向があることが分かった。しかし、ファインチューニングされたモデルのパフォーマンスは期待通りではなかった。対照的に、IC-IFDスコアは指示の複雑さの影響を効果的に捉え、より正確なデータ品質評価を提供している。

A.6 Prompt Templates

Refer to caption
図10: Evol-Instructシナリオで使用される深化進化プロンプトテンプレート。
Refer to caption
図11: Evol-Instructシナリオで使用される4つの深化手法。
Refer to caption
図12: Evol-Instructシナリオで使用される拡張進化プロンプトテンプレート。

Prompt Templates of Evol-Instruct.

10は、Evol-Instructシナリオで使用される指示進化のための深化進化プロンプトテンプレートを示しており、(Xu et al., 2024a)から派生し、若干の修正が加えられている。図11および12は、我々が採用する4つの深化手法と1つの拡張進化プロンプトテンプレートを示している。

Refer to caption
図13: AutoIFシナリオにおけるSelf-Instruct Seed Instructionsのプロンプトテンプレート。
Refer to caption
図14: AutoIFシナリオにおける検証関数とケース生成のプロンプトテンプレート。

Prompt Templates of AutoIF.

我々は(Dong et al., 2024)と一致するプロンプトテンプレートを使用している。図13および14は、Self-Instruct Seed InstructionsとVerification Funcs and Cases Generationの2つの段階で使用されるプロンプトを表している。

Refer to caption
図15: Auto Evol-Instructシナリオのプロンプトテンプレート。

Prompt Templates of Auto Evol-Instruct.

15に示すように、我々はAuto Evol-Instructシナリオにおいて(Zeng et al., 2024)と一致するプロンプトテンプレートを使用している。

Refer to caption
図16: 応答生成のプロンプトテンプレート。

Prompt Templates of Response Generation.

我々は図16に示すプロンプトテンプレートを使用して、すべての指示に対応する応答を生成している。Llama-Factoryのデータ編成形式を採用しているため、応答生成時には入力の有無に基づいて2つのタイプに分類している。

Refer to caption
図17: 難易度レベルを評価するためのプロンプトテンプレート。
Refer to caption
図18: 進化軌跡からキーワードを抽出するためのプロンプトテンプレート。
Refer to caption
図19: 難易度スコアを評価するためのプロンプトテンプレート。

Prompt Templates of Data Analysis.

17および19は、指示の難易度レベルとスコアを評価するために使用されるプロンプトテンプレートを示している。図18は、モデルによって自動生成された進化軌跡を分析するために使用されるプロンプトテンプレートを表示している。

Refer to caption
図20: 勝率・引き分け率・敗率を評価するためのプロンプトテンプレート。

Prompt Templates of Evaluation.

20は、AlpacaFarmにおける勝率・引き分け率・敗率を評価するために使用されるプロンプトテンプレートを示している。