Evaluating Language Models as Synthetic Data Generators
Abstract
言語モデル(LM)の事後学習における合成データの使用が増加していることを踏まえると、LMが高品質なデータを生成する能力は、直接問題を解決する能力とほぼ同様に重要になってきている。先行研究では効果的なデータ生成方法の開発に焦点が当てられてきたが、統一された設定で異なるデータ生成器としてのLMを体系的に比較することが欠けていた。この課題に対処するため、我々はAgoraBenchを提案する。これはLMのデータ生成能力を評価するための標準化された設定と指標を提供するベンチマークである。6つのLMを使用して126万のトレーニングインスタンスを合成し、99の学習モデルを訓練することで、LMのデータ生成能力に関する重要な洞察を明らかにした。第一に、LMは異なる強みを示すことを観察した。例えば、GPT-4oは新しい問題の生成に優れている一方、Claude-3.5-Sonnetは既存の問題の改善においてより優れた性能を示す。さらに、我々の分析は、LMのデータ生成能力が必ずしもその問題解決能力と相関しないことを明らかにした。むしろ、応答品質、パープレキシティ、指示の難しさを含む、データ品質の複数の本質的特徴が、より良い指標として機能する。最後に、出力フォーマットの戦略的選択とコスト意識のあるモデル選択が、データ生成の有効性に大きな影響を与えることを実証した。本稿のコード、チェックポイント、およびデータはすべてhttps://github.com/neulab/data-agoraで公開されている。
1 Introduction
合成データによる言語モデル(LM)の事後学習は、幅広いタスクを解決する能力を向上させるための有望なアプローチである(Wang et al., 2023; Honovich et al., 2023; Taori et al., 2023; Liu et al., 2024b)。手動アノテーションによるデータ取得は依然として重要な役割を果たしているが、合成データ生成は人手によるラベリングを補完する拡張性のある方法を提供している(Viswanathan et al., 2023; Kim et al., 2023b)。そのため、高品質な合成データを効果的に生成するための新しい手法を提案する多くの研究がなされている(Xu et al., 2024a; Gunasekar et al., 2023; Yue et al., 2023, 2024)。
同等の性能を持つ複数の独自のLMが登場し、オープンソースのLMが着実に追いついている中(Hurst et al., 2024; Anthropic, 2024; MetaAI, 2024; Team, 2024)、各LMのデータ生成能力を測定することは、新しいデータ生成手法の開発と同様に重要になってきている。さらに、独自のLMを提供する企業は、合成データの生成に最新のモデルを使用することを推奨し始めている(Nvidia, 2024)。 LM間のデータ生成能力を慎重に比較することは、これらの主張を検証し、実務者がデータ合成のためのモデルを賢明に選択することを可能にする。
LMのデータ生成器としての能力を体系的に比較するためには、統一された実験設定が必要である。そこでは、データ生成器のみが変化し、他の要素は固定されたままである。しかし、図1に示すように、これまでの研究は自身のデータ生成手法の有効性を示すことに重点を置いており、このような比較を困難にする様々な実験設定につながっている。例えば、Self-Instruct(Wang et al., 2023)、Alpaca(Taori et al., 2023)、WizardLM(Xu et al., 2024a)、Orca(Mukherjee et al., 2023)は、データ生成に使用するLMの選択、合成訓練データの量、訓練に使用するベースモデル、合成データセットで訓練されたモデルを評価するベンチマークなどが異なっている。これらの不均一な設定は、LMのデータ生成能力を分離して測定することを困難にし、制御された設定の必要性を浮き彫りにしている。
この目的のため、我々はAgoraBenchを提案する。これは、3つの領域(数学、指示追従、コード)と3つのデータ生成手法(インスタンス生成、応答生成、品質向上)を組み合わせた9つの設定にわたってLMのデータ生成能力を評価するベンチマークである。各設定内では、データ生成器以外のすべての変数が制御されている:同じメタプロンプトとシードデータセットが使用され、各LMは同一数の訓練インスタンスを生成する。Llama-3.1-8Bは各合成データセットで訓練され、数学、コーディング、一般的な指示追従など、異なる能力を網羅する固定されたベンチマークセットで評価される。合成データの品質を評価するために、我々はPerformance Gap Recovered(PGR)と呼ばれる指標を定義する。これは、データで訓練されたモデル(「学生モデル」と呼ぶ)のベースモデルに対する相対的な改善を測定する。この設定に基づき、我々は6つのLMをデータ生成器として評価する:GPT-4o、GPT-4o-mini、Claude-3.5-Sonnet、およびLlama-3.1-Instruct(8、70、405B)である。111 Xu et al. (2024c)は、我々の研究と同時期の研究で、様々なLMのデータ生成能力も測定している。 我々の研究とは対照的に、彼らは「応答生成」設定のみを検討しているが、我々は3つのデータ生成設定を測定し、さらにデータの本質的な品質とPGRの関係についていくつかの追加分析も行っている。
我々の分析は、様々な種類のデータ生成手法において、異なるLM間で明確な強みがあることを明らかにしている。例えば、GPT-4oは新しいインスタンスの生成において優れたパフォーマンス(+ 46.75%)を示し、Claude-3.5-Sonnet(+ 24.14%)とLlama-3.1-405B-Instruct(+ 10.10%)の両方を上回っている。一方、Claude-3.5-Sonnetは既存のインスタンスの改善において優れており(+ 17.89%)、GPT-4o(+ 6.69%)とGPT-4o-mini(+ 5.49%)の両方を上回っている。これらの発見は、AgoraBenchが実務者に特定のニーズに適したLMを選択する指針を提供できることを示している。
意外なことに、我々は問題解決能力が弱いLMが時としてデータ生成においてより強力なLMを上回ることも発見した—例えば、Claude-3.5-Sonnet(+ 23.43%)はコードドメインにおける新しいインスタンスの生成でLlama-3.1-8B-Instruct(+ 55.69%)よりも効果が低い。これらの発見に基づき、我々はLMのデータ生成能力がその問題解決能力のみによって予測できるかどうかを調査した。我々の分析は、この二つの能力間に強い相関がないことを明らかにした。代わりに、データ品質の複数の本質的特徴—指示の難しさ、応答の質、応答の不確実性を含む—が集合的に学習モデルの改善に影響を与えている。さらに、我々は本質的測定から抽出された上位5つの主成分がPGR値の分散の93.4%を説明できることを実証した。
最後に、我々は効果的なデータ生成のための分析実験を行った。例えば、合成データの出力形式がパフォーマンスに大きな影響を与えることを発見した:JSON形式を使用して生成されたデータは、6つの設定全体で自由形式の生成と比較して平均4.45%低いパフォーマンスを示した。さらに、予算制約のある設定では、より弱いモデルでより多くのデータを生成することが、より強力なモデルでより少ないデータを生成するよりも優れたパフォーマンスを達成できる。我々は、GPT-4o-miniで50Kインスタンスを生成することが、3.4倍安価でありながら、3つの設定のうち2つでGPT-4oで10Kインスタンスを生成するよりも優れたパフォーマンスを達成することを発見した。
2 Preliminaries: Measuring Data Generation Capabilities of LMs
Notations.
シードデータ と、実行するデータ生成の種類を記述するプロンプト(「メタプロンプト」と呼ばれる) が与えられた場合、データジェネレータ は以下を生成する:
(1) |
ここで、 と はともに として表現でき、 は指示を、 は対応する応答を、 はデータのサイズを表している。
Domain | Data Generation Method | Seed Data | Seed Data Size | Benchmark |
---|---|---|---|---|
Math | Instance Generation | GSM8K, MATH (train set) | 14,856 | GSM8K, MATH (test set) |
Response Generation | Magpie-Reasoning (math) | 10,000 | GSM8K, MATH (test set) | |
Quality Enhancement | WebInstruct (math) | 10,000 | GSM8K, MATH (test set) | |
Code | Instance Generation | MBPP (train set), xP3x | 874 | MBPP, HumanEval (test set) |
Response Generation | Magpie-Reasoning (code) | 10,000 | MBPP, HumanEval (test set) | |
Quality Enhancement | CoNaLa | 10,000 | MBPP, HumanEval (test set) | |
Inst. Follow | Instance Generation | LIMA | 503 | AlpacaEval 2.0, Arena-Hard |
Response Generation | Magpie-Pro | 10,000 | AlpacaEval 2.0, Arena-Hard | |
Quality Enhancement | WebInstruct (code) | 10,000 | AlpacaEval 2.0, Arena-Hard |
Data Generation Methods.
Metric.
言語モデルのデータ生成能力は、教師生成データで訓練された学習モデルの性能向上を評価することで測定できる。具体的に、我々は回復性能ギャップ(Performance Gap Recovered: PGR)という指標を提案する。これは、ベンチマークにおける参照モデルに対する改善度を測定するものである。
(2) |
ここで、は事前訓練された言語モデルを、はで訓練されたを、はと同じ事前訓練モデルをベースモデルとして共有する参照モデルを、そしてはベンチマークにおけるスコアを表す。我々の実験では、としてLlama-3.1-8Bを、としてLlama-3.1-8B-Instructを使用する。222 を測定する際、はゼロショットプロンプティングでタスクを解決できないため、フューショットプロンプティングで性能を評価することに注意されたい。 対照的に、とはゼロショットプロンプティングで評価される。
直感的に、図3に示されているように、としてLlama-3.1-8Bを、としてLlama-3.1-8B-Instructを使用することで、PGR値はLlama-3.1-8B-Instructの事後訓練プロセスと比較してどれだけの性能が回復されたかを表している。この事後訓練プロセスは、報告によると1000万以上の人間がキュレーションしたデータ例を用いた広範な訓練であった(MetaAI, 2024)。例えば、PGR値が50%の場合、はがに対して達成した改善の50%を回復したことを示す。100%を超える値はがを上回ることを示し、負の値はでの訓練がにおける性能を、のフューショットプロンプティングと比較して低下させたことを示す。
Training Student Models.
学生モデル()を訓練する際、我々は教師あり微調整(SFT)を採用し、応答トークンのみに対して損失を計算する。我々は生成されたデータをフィルタリングせずに直接使用し、他の事後訓練手法は考慮しない。これは、最も単純な設定において言語モデル()の生のデータ生成能力を評価することが我々の目的であり、のベンチマークパフォーマンスを最大化することではないためである。訓練のハイパーパラメータの詳細は付録Dに記載されている。
Data Generator | Instance Generation | Response Generation | Quality Enhancement | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Math | Code | Inst. | Avg | Math | Code | Inst. | Avg | Math | Code | Inst. | Avg | |
GPT-4o | 20.6 | 73.6 | 46.1 | 46.8 | 46.7 | 28.5 | 30.3 | 35.2 | 21.9 | -8.8 | 7.1 | 6.7 |
GPT-4o-mini | 16.1 | 41.9 | 18.0 | 25.3 | 48.1 | 18.9 | 13.7 | 26.9 | 17.8 | -11.2 | 9.9 | 5.5 |
Claude-3.5-Sonnet | 8.9 | 23.4 | 40.1 | 24.1 | 29.0 | 44.5 | 12.7 | 28.8 | 15.7 | 16.1 | 21.8 | 17.9 |
Llama-3.1-405B | 10.4 | 12.6 | 7.4 | 10.1 | 31.7 | 35.4 | 4.9 | 24.0 | -11.8 | 7.5 | 3.6 | -0.2 |
Llama-3.1-70B | 9.6 | 58.7 | 6.5 | 24.9 | 23.0 | 37.1 | 4.5 | 21.5 | -21.8 | 6.9 | 2.7 | -4.1 |
Llama-3.1-8B | 6.5 | 55.7 | 6.2 | 22.8 | 27.6 | 25.8 | 5.0 | 19.4 | -1.7 | 15.4 | 3.0 | 5.6 |
3 Experimental Setting of AgoraBench
様々な選択肢の中で、AgoraBenchは言語モデルにとって重要と考えられる3つの中核的能力に焦点を当てている:指示に従う能力、数学的推論、およびコーディング(Chang et al., 2024; Guo et al., 2023; Hurst et al., 2024; Anthropic, 2024)。AgoraBenchの全体的な実験設定(各設定のドメイン、シードデータセット、およびベンチマークを含む)は表1に記載されている。
Domains.
AgoraBenchは数学、コード、指示に従う能力の3つのドメインを包含している。各ドメインにおいて3つのデータ生成手法を評価することで、9つの異なる設定が生まれ、それぞれに専用のシードデータセット()とベンチマーク()がある。各設定において、データ生成器として使用される言語モデルは10,000の訓練インスタンスを生成する。
Seed Datasets.
各設定において、我々は以下の異なる前提に基づいてシードデータセット()を選択する:
-
•
インスタンス生成については、少量の高品質データを大量に拡張するため、我々のアプローチは高品質の人手で作成されたデータをシードデータとして使用することを前提としている。そのため、数学には GSM8K (Cobbe et al., 2021)と MATH (Hendrycks et al., 2021)の訓練サブセット、コードには MBPP (Austin et al., 2021)と xP3x (Muennighoff et al., 2023b)、指示文フォローイングには LIMA (Zhou et al., 2024)を使用する。Llama-3 トークナイザーに基づいて 4,096 トークンを超えるインスタンスを除外し、結果として数学、コード、指示文フォローイングの各ドメインについて、それぞれ 14,856、874、503 のシードインスタンスを得た。
-
•
応答生成については、異なるデータ生成器が固定された指示文セットに応答を付加して、最終的により高品質なデータを作成する方法をシミュレートする。実験のために任意のデータを取得し、その応答を破棄することも可能であるが、我々は Magpie データセットを利用する。なぜなら、Xu et al. (2024b)の設定が我々の設定と密接に一致しているからである - 彼らは最初に空のチャットテンプレートで LM にプロンプトを与えて指示文を抽出し、その後 2 種類の異なる LM(Llama-3-70B-Instruct と Qwen-2-72B-Instruct)を使用して応答を生成している。 我々の実験では、指示文フォローイングドメインには Magpie データセット (Xu et al., 2024b)から 10K インスタンスをサンプリングし、数学とコードの両ドメインには Magpie-Reasoning データセットから 10K インスタンスをサンプリングする。
-
•
品質向上については、指示文と応答の完全なインスタンスが既に存在するが、ポストトレーニングに使用する前に品質向上が必要なシナリオをテストする - これは指示文が単純すぎるか、応答が十分に詳細でないためである。指示文フォローイングと数学ドメインには、WebInstruct(改善が必要なウェブからの Q-A ペア;Yue et al. (2024)参照)から 10K インスタンスをサンプリングする。WebInstruct にはドメインラベルが含まれていないため、GPT-4o-mini-2024-07-18 にプロンプトを与えて別の を準備する(詳細は付録 B を参照)。コードドメインには、StackOverflow からの単純な指示文と 1-3 行のコードスニペットのペアを含む CoNaLa を使用する (Yin et al., 2018)。
Benchmarks.
4 Experimental Results of AgoraBench
我々は6つのLMをデータ生成器()として比較した。具体的には、GPT-4o-2024-08-06 (Hurst et al., 2024)、GPT-4o-mini-2024-07-18、Claude-3.5-Sonnet-2024-06-20 (Anthropic, 2024)、Llama-3.1-405B-Instruct、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instruct (Dubey et al., 2024)である。また、Llama-3.1-8Bを学習モデル()として使用した。AgoraBenchの結果は表2に示されている。
GPT-4o is the overall most performant data generator:
9つの実験設定のうち、GPT-4oは5つの設定で最高のPGRスコアを達成している。特にインスタンス生成における性能が顕著であり、3つの領域全てにおいて他のLMを上回るデータ生成器としての性能を示している(数学で20.6%、コードで73.6%、指示追従で46.1%、総平均で46.8%)。また、応答生成においても最高の平均PGRスコア(35.2%)を達成している。
Claude-3.5-Sonnet proves particularly effective for quality enhancement:
Claude-3.5-Sonnetは、特に品質向上において強力な性能を示し、3つのドメインのうち2つで最高のPGRスコアを達成している(コードで21.8%、指示の遵守で17.9%、総平均で17.9%)。さらに、コードドメインにおける応答生成で最高のPGRスコア(44.5%)を獲得し、9つの設定のうち3つで最高性能を達成している。
Data Generator | API Cost | Prob. | Data | |
---|---|---|---|---|
Solv. | Gen. | |||
Input | Output | Avg | Agora | |
Bench | ||||
GPT-4o | $2.50 | $10.00 | 80.9 | 29.5% |
GPT-4o-mini | $0.15 | $0.60 | 75.4 | 19.2% |
Claude-3.5-Sonnet | $3.00 | $15.00 | 80.5 | 23.6% |
Llama-3.1-405B | $1.79 | $1.79 | 75.0 | 11.3% |
Llama-3.1-70B | $0.35 | $0.40 | 69.6 | 14.1% |
Llama-3.1-8B | $0.055 | $0.055 | 50.2 | 15.9% |
Weaker LMs can outperform Stronger LMs:
我々は、問題解決能力が弱いLMが、より強力な対応モデルよりも高いPerformance Gap Recovered (PGR)スコアを達成する事例を観察した。コードドメインのインスタンス生成において、Claude-3.5-Sonnet (23.4%)とLlama-3.1-405B-Instruct (12.6%)は、Llama-3.1-70B-Instruct (58.7%)とLlama-3.1-8B-Instruct (55.7%)に劣る結果となった。同様に、コードドメインの品質向上設定では、GPT-4o (-8.8%)とGPT-4o-mini (-11.2%)が他のLMと比較して劣った性能を示した。
GPT-4o, GPT-4o-mini, and Llama-3.1-8B-Instruct are effective data generators that balance both cost and performance:
大量の合成データを生成する際、パフォーマンスと並んでコストも重要な要素である。表3にはAPIコスト333価格はhttps://openrouter.ai/に基づいている。、ベンチマークスコア(すなわち問題解決能力)、およびAgoraBenchでの平均パフォーマンス(すなわちデータ生成能力)が6つのLMすべてについて記載されている。Llama-3.1-8B-InstructはLlama-3.1-70B-InstructとLlama-3.1-405B-Instructの両方を上回るパフォーマンスを示し、コストは6倍から32.5倍低い。同様に、GPT-4oはClaude-3.5-Sonnetよりも1.2倍から1.5倍低いコストでより良いパフォーマンスを達成している。これらの発見は、より高価なLMを使用することが必ずしもより良いデータ生成を保証するものではないことを示唆しており、特定のタスクや関心のあるドメインに基づいて慎重にモデルを選択することの重要性を強調している。
5 What makes an effective data generator?
前節では、予想外の発見があった。問題解決能力が劣る言語モデルが、同一条件下で同量の合成データを生成する際に、より強力な言語モデルを上回ることがあるのである。この現象をより深く理解するために、我々はまず問題解決能力とデータ生成能力の間に強い相関関係が存在するかどうかを検討する(第5.1節)。次に、各言語モデルによって生成されたデータを分析することで、学習モデルの性能向上の度合いを予測できるかどうかを調査する(第5.2節)。
5.1 Is the best solver necessarily the best generator?
データ生成能力と問題解決能力の関係を調べるために、我々は2つの指標を比較する線形回帰分析を実施した。複数のベンチマーク(GSM8K、MATH、MBPP、HumanEval、AlpacaEval-2.0、Arena-Hard)における平均性能とAgoraBenchのスコアである。この分析は2つの粒度レベルで行われた。第一の分析(粗粒度)では、全ドメインおよびデータ生成設定にわたるAgoraBenchの総合平均スコアを使用した。第二の分析(細粒度)では、AgoraBenchの異なるドメインおよびデータ生成設定からの個別スコアを別々に検討した。
図4に示された結果は、いずれの粒度レベルにおいても、問題解決能力(ベンチマークスコア)とデータ生成能力(AgoraBench PGRスコア)の間に強い線形相関がないことを明らかにしている。この発見は、従来のベンチマークにおける言語モデルの性能が、データ生成器としての有効性を予測しない可能性があることを示唆している。
5.2 Can we predict the student model’s improvement by looking into the data?
問題解決能力がデータ生成能力を直接予測しないことを踏まえ、我々は効果的なデータ生成器を定義する他の特性を探究する。我々は、学習モデルを大幅に改善できる良質なデータには、その本質的な特性を分析することで識別可能な抽出可能な特徴があるという仮説を立てる。 この理解は、優れたデータ生成器からのデータがどのような特性を持つ可能性があるかを我々に示すため、極めて重要である。 Liu et al. (2023b)に触発され、我々は生成されたデータの様々な特性を分析することで本質的評価を行う。
Intrinsic Evaluation Metrics
我々は以下を評価する:(1)指示の複雑さ、(2)応答の質、(3)学習モデルを用いたの不確実性、(4)指示と応答それぞれの多様性:
-
•
応答の質:我々はに対するの質を測定する。 以下の2つの方法を用いる:
- –
- –
-
•
指示の複雑さ(LLMを判定者としたスコア):我々はLMにの複雑さを表す1から5の離散的なスコアを返すよう促すことで、の難しさを測定する。応答の質を評価する場合と同様に、Prometheus-2-8x7BとGPT-4oを判定者として使用する。応答の質を評価する場合とは異なるスコアの基準を使用し、各ドメインに対して異なる基準を用いる。これらは付録Gに記載されている。
-
•
応答の不確実性:我々はベースモデル(Llama-3.1-8B)を用いて、を条件としたの不確実性を測定する。
- •
ページ数の制限により、本質的評価の詳細な結果は付録Eに記載されている。
Experiments
Ruan et al. (2024)の実験に触発され、我々は本質的評価指標がAgoraBenchの結果の変動を説明できるかどうかを調査するために主成分分析(PCA)を実施する。我々の本質的評価指標間の相互依存性のため、多変量線形回帰ではなくPCAを選択する。
Intrinsic Metric | Loading Strength | Contribution |
---|---|---|
Prometheus Score (R.Q.) | 0.256 | 12.18% |
Response Perplexity | 0.252 | 12.00% |
GPT-4o Score (R.Q.) | 0.246 | 11.71% |
Problem-solving Ability | 0.240 | 11.42% |
Skywork-RM Score (R.Q.) | 0.239 | 11.38% |
Prometheus Score (I.D.) | 0.230 | 10.95% |
Diversity (I.D.) | 0.226 | 10.76% |
GPT-4o Score (I.D.) | 0.223 | 10.61% |
Diversity (R.Q.) | 0.189 | 9.00% |
図5に示す結果は、上位5つの主成分がAgoraBench結果の分散の約93.4%を説明することを明らかにしている(それぞれ39.2%、30.4%、11.9%、7.0%、4.9%)。さらに、成分の重みの分析により解釈可能なパターンが明らかになった。第一主成分(PC-1)は指示の難しさと多様性関連の指標に強く影響を受けている。第二成分(PC-2)は応答の質と指示の難しさの影響を受け、第三成分(PC-3)は多様性関連の指標、応答の質、およびLMの問題解決能力を組み合わせている。
さらに、表4に示すように、各本質的評価指標の平均負荷強度(すべての主成分にわたる特徴の負荷の平均的な大きさ、データの全体的な分散に各指標がどの程度強く影響を与えるかを示す)を分析すると、寄与度が0.189から0.256の範囲であることが観察され、すべての本質的評価指標がPGR結果に同程度寄与していることがわかる。また、応答の質に関連する指標が、多様性関連の指標や指示の難しさに関連する指標よりもPGR結果にわずかに強い寄与を示すことがわかった。
Data Generator | AgoraBench Meta-prompt | Unoptimized Meta-prompt | JSON-format Meta-prompt | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Math | Code | Inst. | Avg | Math | Code | Inst. | Avg | Math | Code | Inst. | Avg | |
Instance Generation | ||||||||||||
GPT-4o-mini | 16.1 | 41.9 | 18.0 | 25.3 | 12.4 | 36.8 | 17.6 | 22.3 | 13.8 | 20.5 | 19.5 | 17.9 |
Llama-3.1-70B | 9.6 | 58.7 | 6.5 | 24.9 | 7.0 | 46.8 | 5.8 | 19.9 | 8.7 | 33.5 | 6.1 | 16.1 |
Llama-3.1-8B | 6.5 | 55.7 | 6.2 | 22.8 | 0.7 | 43.6 | 4.5 | 16.3 | 6.7 | 31.4 | 4.4 | 14.2 |
Quality Enhancement | ||||||||||||
GPT-4o-mini | 17.8 | -11.2 | 9.9 | 5.5 | 13.0 | -6.3 | 9.4 | 5.4 | 15.4 | -13.0 | 9.2 | 3.8 |
Llama-3.1-70B | -21.8 | 6.9 | 2.7 | -4.1 | -20.5 | -5.5 | 2.3 | -7.9 | -18.3 | 6.5 | 2.4 | -3.1 |
Llama-3.1-8B | -1.7 | 15.4 | 3.0 | 5.6 | -6.6 | 3.7 | 3.5 | 0.2 | -2.7 | 12.0 | 3.9 | 4.4 |
6 Further Analysis Experiments
本節では、データ生成に関する2つの重要な問いについてさらに検討する:(1) より安価なLMを用いて量を優先すべきか、それともより高価なLMを用いて質を優先すべきか?(6.1節)そして (2) メタプロンプトの設計、特に構造化されたJSON形式の生成と従来の自由形式のアプローチを比較した場合、どのような影響があるか?(6.2節)。
6.1 Quantity or quality?
4節では、固定数のインスタンスを生成する場合、より安価なLMが高価なLMよりも効果的なデータ生成器となる場合があることを示した。ただし、一般的には高価なモデルの方がより良い性能を示す。これは実用的な問いを提起する:より安価なモデルを使用してより多くのインスタンスを生成する方が、高価なモデルでより少ないインスタンスを生成するよりも効果的なのだろうか?
我々は実験を拡大し、GPT-4o-mini、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instructを使用して、インスタンス生成シナリオの3つのドメインで最大50Kインスタンスを生成した。図7に示すように、GPT-4o-miniで50Kインスタンスを生成することは、指示遵守と数学のドメインでGPT-4oで10Kインスタンスを生成するよりも良い性能をもたらした。また、Llama-3.1-8B-Instructはコードドメインで同様のパターンを示した。これらのLMはGPT-4oよりも少なくとも5倍コスト効率が高いことを考えると、我々の発見は、より安価なLMでより大量の合成データを生成することが、高価なLMでより小規模なデータセットを生成するよりも有利である可能性を示唆している。さらに、これは訓練インスタンス数が異なる2つの設定を比較する際、指示の多様性または応答の多様性がPGR結果に影響を与える可能性があることを示唆している。
6.2 Effect of Meta-prompts
最近、Tam et al. (2024)は、LMが構造化された形式(例えば、JSON)で応答を生成する際に問題解決能力が低下することを示している。実務者がLMを使用する際に構造化された出力を好むことを考えると(Shorten et al., 2024; Liang et al., 2024)、この形式がデータ生成性能に影響を与えるかどうかを調査することは重要である。さらに、我々はメタプロンプトの設計が生成品質に与える影響を検討する。
これらの問題を調査するために、我々は比較用に4つの追加メタプロンプトを作成した。各設定(インスタンス生成と品質向上)について、2人の共著者がメタプロンプトを作成した:1人は最適化されていないバージョン(10分未満で作成)444これは、初期実験段階で2時間以上かけて反復的な試行錯誤を通じて開発された本実験のメタプロンプトとは対照的である。を開発し、もう1人はJSON形式のバージョンを作成した。
表5に我々の調査結果を示す。他のメタプロンプトと比較して、AgoraBenchメタプロンプトは6つの設定のうち5つで最高スコアを達成し、AgoraBenchの設定の堅牢性を示している。AgoraBenchメタプロンプトと最適化されていないバージョンを比較すると、平均して3.97%の性能差が見られ、メタプロンプトの最適化の重要性が浮き彫りになる。さらに、自由形式の生成を使用するAgoraBenchメタプロンプトは、JSON形式のプロンプトと比較して4.45%高い性能を達成している。これは、構造化された形式の要件がLMの出力品質を損なう可能性があるという最近の知見と一致する(Tam et al., 2024)。
7 Conclusion
本稿では、標準化された設定と指標を通じてLMのデータ生成能力を体系的に評価するベンチマーク、AgoraBenchを紹介する。我々の分析により、モデルは異なる生成方法や領域において異なる強みを示すことが明らかになり、データ生成器の慎重な選択の重要性が浮き彫りになった。LMのデータ生成能力はコストや問題解決能力のみでは予測できないが、我々は内在的評価測定から解釈可能な低次元の主成分を特定し、これらが分散の最大93.4%を説明し、より優れた予測因子として機能することを見出した。
今後、AgoraBenchは分野における2つの重要な進展を可能にすると我々は考えている。第一に、我々の発見は問題解決能力がデータ生成の質の主要な決定要因ではないことを示唆しているため、研究者は我々のベンチマークを使用して、効果的なデータ生成器を構成する核心的な能力を特定し、潜在的にデータ生成に特化した専門的なLMを開発することができる。第二に、AgoraBenchは実務者がデータ生成パイプラインを評価し改善するための実用的な評価フレームワークとして機能する可能性がある - 彼らは独自のデータ生成方法、シードデータセット、またはメタプロンプトを使用し、我々のベースライン設定と比較することができる。さらに、彼らは我々の体系的な評価方法を活用して、大規模なデータ作成を展開する前に生成パラメータを最適化することができる。これらの相補的な研究と応用の方向性を通じて、AgoraBenchはデータ生成器としての言語モデルに関する我々の理論的理解と、実世界のアプリケーションにおける実用的な展開の両方を加速することを目指している。
References
- Anthropic (2024) Anthropic, A. Claude 3.5 sonnet model card addendum. Claude-3.5 Model Card, 2024.
- Austin et al. (2021) Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
- Brown et al. (2020) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Language models are few-shot learners. Advances in neural information processing systems, 2020.
- Chang et al. (2024) Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., et al. A survey on evaluation of large language models. ACM Transactions on Intelligent Systems and Technology, 15(3):1–45, 2024.
- Chen et al. (2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
- Cobbe et al. (2021) Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., and Schulman, J. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
- Dong et al. (2023) Dong, G., Yuan, H., Lu, K., Li, C., Xue, M., Liu, D., Wang, W., Yuan, Z., Zhou, C., and Zhou, J. How abilities in large language models are affected by supervised fine-tuning data composition. arXiv preprint arXiv:2310.05492, 2023.
- Dubey et al. (2024) Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
- Dubois et al. (2024) Dubois, Y., Galambosi, B., Liang, P., and Hashimoto, T. B. Length-controlled alpacaeval: A simple way to debias automatic evaluators. arXiv preprint arXiv:2404.04475, 2024.
- Gunasekar et al. (2023) Gunasekar, S., Zhang, Y., Aneja, J., Mendes, C. C. T., Del Giorno, A., Gopi, S., Javaheripi, M., Kauffmann, P., de Rosa, G., Saarikivi, O., et al. Textbooks are all you need. arXiv preprint arXiv:2306.11644, 2023.
- Guo et al. (2023) Guo, Z., Jin, R., Liu, C., Huang, Y., Shi, D., Yu, L., Liu, Y., Li, J., Xiong, B., Xiong, D., et al. Evaluating large language models: A comprehensive survey. arXiv preprint arXiv:2310.19736, 2023.
- Hendrycks et al. (2021) Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. Measuring mathematical problem solving with the math dataset. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2), 2021.
- Honovich et al. (2022) Honovich, O., Shaham, U., Bowman, S. R., and Levy, O. Instruction induction: From few examples to natural language task descriptions. arXiv preprint arXiv:2205.10782, 2022.
- Honovich et al. (2023) Honovich, O., Scialom, T., Levy, O., and Schick, T. Unnatural instructions: Tuning language models with (almost) no human labor. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 14409–14428, 2023.
- Hurst et al. (2024) Hurst, A., Lerer, A., Goucher, A. P., Perelman, A., Ramesh, A., Clark, A., Ostrow, A., Welihinda, A., Hayes, A., Radford, A., et al. Gpt-4o system card. arXiv preprint arXiv:2410.21276, 2024.
- Kim et al. (2023a) Kim, S., Joo, S., Kim, D., Jang, J., Ye, S., Shin, J., and Seo, M. The cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 12685–12708, 2023a.
- Kim et al. (2023b) Kim, S., Joo, S. J., Jang, Y., Chae, H., and Yeo, J. Cotever: Chain of thought prompting annotation toolkit for explanation verification. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pp. 195–208, 2023b.
- Kim et al. (2024) Kim, S., Suk, J., Longpre, S., Lin, B. Y., Shin, J., Welleck, S., Neubig, G., Lee, M., Lee, K., and Seo, M. Prometheus 2: An open source language model specialized in evaluating other language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp. 4334–4353, 2024.
- Lambert et al. (2024) Lambert, N., Pyatkin, V., Morrison, J., Miranda, L., Lin, B. Y., Chandu, K., Dziri, N., Kumar, S., Zick, T., Choi, Y., et al. Rewardbench: Evaluating reward models for language modeling. arXiv preprint arXiv:2403.13787, 2024.
- Li et al. (2024) Li, T., Chiang, W.-L., Frick, E., Dunlap, L., Wu, T., Zhu, B., Gonzalez, J. E., and Stoica, I. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. arXiv preprint arXiv:2406.11939, 2024.
- Liang et al. (2024) Liang, J., Li, G., and Yu, Y. Universal and context-independent triggers for precise control of llm outputs. arXiv preprint arXiv:2411.14738, 2024.
- Liu et al. (2024a) Liu, C. Y., Zeng, L., Liu, J., Yan, R., He, J., Wang, C., Yan, S., Liu, Y., and Zhou, Y. Skywork-reward: Bag of tricks for reward modeling in llms. arXiv preprint arXiv:2410.18451, 2024a.
- Liu et al. (2023a) Liu, J., Xia, C. S., Wang, Y., and Zhang, L. Is your code generated by chatGPT really correct? rigorous evaluation of large language models for code generation. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a. URL https://openreview.net/forum?id=1qvx610Cu7.
- Liu et al. (2024b) Liu, R., Wei, J., Liu, F., Si, C., Zhang, Y., Rao, J., Zheng, S., Peng, D., Yang, D., Zhou, D., et al. Best practices and lessons learned on synthetic data. In First Conference on Language Modeling, 2024b.
- Liu et al. (2023b) Liu, W., Zeng, W., He, K., Jiang, Y., and He, J. What makes good data for alignment? a comprehensive study of automatic data selection in instruction tuning. In The Twelfth International Conference on Learning Representations, 2023b.
- Longpre et al. (2023) Longpre, S., Hou, L., Vu, T., Webson, A., Chung, H. W., Tay, Y., Zhou, D., Le, Q. V., Zoph, B., Wei, J., et al. The flan collection: Designing data and methods for effective instruction tuning. In International Conference on Machine Learning, pp. 22631–22648. PMLR, 2023.
- MetaAI (2024) MetaAI. Introducing meta llama 3: The most capable openly available llm to date. 2024. URL https://ai.meta.com/blog/meta-llama-3/.
- Mishra et al. (2022) Mishra, S., Khashabi, D., Baral, C., and Hajishirzi, H. Cross-task generalization via natural language crowdsourcing instructions. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, 2022.
- Muennighoff et al. (2023a) Muennighoff, N., Tazi, N., Magne, L., and Reimers, N. Mteb: Massive text embedding benchmark. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pp. 2014–2037, 2023a.
- Muennighoff et al. (2023b) Muennighoff, N., Wang, T., Sutawika, L., Roberts, A., Biderman, S., Le Scao, T., Bari, M. S., Shen, S., Yong, Z. X., Schoelkopf, H., et al. Crosslingual generalization through multitask finetuning. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 15991–16111, 2023b.
- Mukherjee et al. (2023) Mukherjee, S., Mitra, A., Jawahar, G., Agarwal, S., Palangi, H., and Awadallah, A. Orca: Progressive learning from complex explanation traces of gpt-4. arXiv preprint arXiv:2306.02707, 2023.
- Ni et al. (2024) Ni, J., Xue, F., Yue, X., Deng, Y., Shah, M., Jain, K., Neubig, G., and You, Y. Mixeval: Deriving wisdom of the crowd from LLM benchmark mixtures. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=6A29LUZhfv.
- Nvidia (2024) Nvidia. Leverage the Latest Open Models for Synthetic Data Generation with NVIDIA Nemotron-4-340B. https://developer.nvidia.com/blog/leverage-our-latest-open-models-for-synthetic-data-generation-with-nvidia-nemotron-4-340b/, 2024.
- Ruan et al. (2024) Ruan, Y., Maddison, C. J., and Hashimoto, T. Observational scaling laws and the predictability of langauge model performance. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=On5WIN7xyD.
- Shorten et al. (2024) Shorten, C., Pierse, C., Smith, T. B., Cardenas, E., Sharma, A., Trengrove, J., and van Luijt, B. Structuredrag: Json response formatting with large language models. arXiv preprint arXiv:2408.11061, 2024.
- Tam et al. (2024) Tam, Z. R., Wu, C.-K., Tsai, Y.-L., Lin, C.-Y., Lee, H.-y., and Chen, Y.-N. Let me speak freely? a study on the impact of format restrictions on performance of large language models. arXiv preprint arXiv:2408.02442, 2024.
- Taori et al. (2023) Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., and Hashimoto, T. B. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.
- Team (2024) Team, Q. Qwen2.5: A party of foundation models, September 2024. URL https://qwenlm.github.io/blog/qwen2.5/.
- Viswanathan et al. (2023) Viswanathan, V., Zhao, C., Bertsch, A., Wu, T., and Neubig, G. Prompt2model: Generating deployable models from natural language instructions. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 413–421, 2023.
- Wang et al. (2022) Wang, Y., Mishra, S., Alipoormolabashi, P., Kordi, Y., Mirzaei, A., Naik, A., Ashok, A., Dhanasekaran, A. S., Arunkumar, A., Stap, D., et al. Super-naturalinstructions: Generalization via declarative instructions on 1600+ nlp tasks. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 5085–5109, 2022.
- Wang et al. (2023) Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N. A., Khashabi, D., and Hajishirzi, H. Self-instruct: Aligning language models with self-generated instructions. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 13484–13508, 2023.
- Wei et al. (2021) Wei, J., Bosma, M., Zhao, V., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M., and Le, Q. V. Finetuned language models are zero-shot learners. In International Conference on Learning Representations, 2021.
- Xu et al. (2024a) Xu, C., Sun, Q., Zheng, K., Geng, X., Zhao, P., Feng, J., Tao, C., Lin, Q., and Jiang, D. WizardLM: Empowering large pre-trained language models to follow complex instructions. In The Twelfth International Conference on Learning Representations, 2024a. URL https://openreview.net/forum?id=CfXh93NDgH.
- Xu et al. (2024b) Xu, Z., Jiang, F., Niu, L., Deng, Y., Poovendran, R., Choi, Y., and Lin, B. Y. Magpie: Alignment data synthesis from scratch by prompting aligned llms with nothing. arXiv preprint arXiv:2406.08464, 2024b.
- Xu et al. (2024c) Xu, Z., Jiang, F., Niu, L., Lin, B. Y., and Poovendran, R. Stronger models are not stronger teachers for instruction tuning. arXiv preprint arXiv:2411.07133, 2024c.
- Yin et al. (2018) Yin, P., Deng, B., Chen, E., Vasilescu, B., and Neubig, G. Learning to mine aligned code and natural language pairs from stack overflow. In International Conference on Mining Software Repositories, MSR, pp. 476–486. ACM, 2018. doi: https://doi.org/10.1145/3196398.3196408.
- Yue et al. (2023) Yue, X., Qu, X., Zhang, G., Fu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mammoth: Building math generalist models through hybrid instruction tuning. In The Twelfth International Conference on Learning Representations, 2023.
- Yue et al. (2024) Yue, X., Zheng, T., Zhang, G., and Chen, W. MAmmoTH2: Scaling instructions from the web. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=yVu5dnPlqA.
- Zhang et al. (2024) Zhang, X., Chen, Z. Z., Ye, X., Yang, X., Chen, L., Wang, W. Y., and Petzold, L. R. Unveiling the impact of coding data instruction fine-tuning on large language models reasoning. arXiv preprint arXiv:2405.20535, 2024.
- Zhou et al. (2024) Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., Yu, L., et al. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.
Appendix A Related Work
従来、人間が作成したデータでLMを訓練することが、下流タスクでのLMの性能を向上させるための事実上の標準と考えられていた(Mishra et al., 2022; Wei et al., 2021; Wang et al., 2022; Longpre et al., 2023)。しかし、LMの文脈内学習能力に基づき(Brown et al., 2020)、一連の研究により、LMが事後訓練データとして使用できる新しい事例を生成できることが示された(Wang et al., 2023; Honovich et al., 2022; Kim et al., 2023a)。
それ以来、様々な研究が、より強力なLMをデータ生成器として使用し、高品質なデータを取得するための様々なデータ生成方法とプロンプトを提案してきた。例えば、Taori et al. (2023)はWang et al. (2023)と同じデータ生成方法を使用したが、GPT-3-Davinciの代わりにInstructGPTを使用し、T5の代わりにLlama-1を訓練した。Xu et al. (2024a)はChatGPTをデータ生成器として使用し、Evol-Instructと呼ばれる方法を提案した。これは、データ生成器に既存の問題をオリジナルよりも複雑にするようプロンプトを与える方法である。Mukherjee et al. (2023)はGPT-4を使用してデータを生成し、回答の導出方法に関する思考の連鎖の説明を追加することで元の応答を改善した。Xu et al. (2024b)はMagpieというデータ生成方法を提案した。これは、まず空のチャットテンプレートでLMにプロンプトを与えて指示を抽出し、その後、対応する応答を生成するよう反復的にプロンプトを与える方法である。
新しいデータ生成方法の開発は重要であるが、どのLMをデータ生成器として使用するかを選択することは、研究者と実務者の両方にとって同様に重要な問題である。我々の知る限り、本研究と同時期の研究であるXu et al. (2024c)が、既存のデータ生成方法を使用して様々なLMのデータ生成能力を測定する最初の試みであった。しかし、彼らの設定は我々の「応答生成」方法に限定されていたのに対し、我々は事例生成と品質向上の方法も検証した。
Appendix B Response Generation Seed Dataset Construction
AgoraBenchにおいて、我々は各ドメイン(指示追従、数学、コード)に対して個別にシードデータセットを準備する。これは、訓練中に発生する正または負の転移を防ぐためであり、それによって合成データの品質とLMのデータ生成能力に対するPGR結果の根拠付けが困難になるのを避けるためである。
我々は、品質向上設定における数学および指示追従ドメインにWebInstructデータ(Yue et al., 2024)を使用する。しかし、WebInstructデータは与えられたインスタンスが数学問題であるかどうかのラベルを提供していない。そのため、我々はGPT-4o-mini-2024-07-18に以下のプロンプトを用いて分類させた:
Appendix C Problem Solving Abilities of LMs evaluated as Data Generators
GPT-4o-2024-08-06、GPT-4o-mini-2024-07-18、Claude-3.5-Sonnet-2024-06-20、Llama-3.1-405B-Instruct、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instructの評価結果を表7に示す。我々は付録Dに記載された設定を使用している。
Inference Hyper-parameter | |
---|---|
Temperature | 0.2 (math) & 0.0 (other domains) |
Top_p | 0.95 |
Max New Tokens | 1024 |
Repetition Penalty | 1.03 |
Training Hyper-parameter | |
Base Model | meta-llama/Llama-3.1-8B |
Torch dtype | bfloat16 |
Epoch | 5 |
Max Seq Length | 4096 |
Learning Rate | 1e-5 |
Train Batch Size | 4 |
Gradient Accumulation | 8 |
GPU | H100 (80GB) x 4 |
Random Seed | 42 |
Training Method | Supervised Fine-tuning |
Appendix D Details for Training and Evaluating Student Models
学生モデルの訓練に使用したハイパーパラメータと、学生モデルおよびデータ生成器として使用されたLMの評価に使用したハイパーパラメータを表6に示す。
Appendix E Intrinsic Evaluation of AgoraBench
内在的評価の結果を表8に示す。
Appendix F AgoraBench Meta-prompts
紙面の制約により、メタプロンプトは我々のリポジトリおよび以下のリンクに掲載している。
Appendix G Prompt for Intrinsic Evaluation
以下のページでは、GPT-4oとPrometheus-2-8x7Bを用いて応答の質と指示の難しさを評価するために使用したプロンプト、および各ドメイン(指示遵守、数学、コード)に使用したスコアルーブリックを列挙する。
Data Generator | Problem-solving ability | ||||||
---|---|---|---|---|---|---|---|
GSM8K | MATH | MBPP | Human | Alpaca | Arena | Average | |
Eval | Eval 2.0 | Hard | |||||
GPT-4o | 96.1 | 76.6 | 86.2 | 91.5 | 57.5 | 77.9 | 80.9 |
GPT-4o-mini | 93.2 | 70.2 | 85.7 | 88.4 | 50.7 | 64.2 | 75.4 |
Claude-3.5-Sonnet | 96.4 | 71.1 | 89.2 | 92.0 | 52.4 | 82.0 | 80.5 |
Llama-3.1-405B | 96.8 | 73.8 | 84.5 | 89.0 | 39.3 | 66.8 | 75.0 |
Llama-3.1-70B | 95.1 | 68.0 | 84.2 | 80.5 | 38.1 | 51.6 | 69.6 |
Llama-3.1-8B | 78.9 | 34.6 | 68.5 | 69.5 | 24.2 | 25.5 | 50.2 |
Data Generator | Instance Generation | Response Generation | Quality Enhancement | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Math | Code | Inst. Follow | Avg | Math | Code | Inst. Follow | Avg | Math | Code | Inst. Follow | Avg | |
Instruction Difficulty (LLM-as-a-Judge; GPT-4o Score) | ||||||||||||
GPT-4o (2024-08-06) | 2.92 | 3.48 | 3.06 | 3.16 | 2.27 | 2.21 | 1.41 | 1.97 | 2.44 | 1.51 | 1.79 | 1.91 |
GPT-4o-mini (2024-07-18) | 2.38 | 3.42 | 2.89 | 2.90 | 2.27 | 2.21 | 1.41 | 1.97 | 2.47 | 1.38 | 1.81 | 1.89 |
Claude-3.5-Sonnet (2024-06-20) | 3.24 | 4.03 | 3.54 | 3.60 | 2.27 | 2.21 | 1.41 | 1.97 | 2.47 | 1.52 | 1.83 | 1.94 |
Llama-3.1-405B-Instruct | 2.74 | 3.50 | 2.87 | 3.04 | 2.27 | 2.21 | 1.41 | 1.97 | 2.45 | 1.47 | 1.85 | 1.92 |
Llama-3.1-70B-Instruct | 2.87 | 3.45 | 2.96 | 3.09 | 2.27 | 2.21 | 1.41 | 1.97 | 2.48 | 1.49 | 1.87 | 1.95 |
Llama-3.1-8B-Instruct | 3.00 | 3.52 | 3.08 | 3.20 | 2.27 | 2.21 | 1.41 | 1.97 | 2.43 | 1.49 | 1.83 | 1.92 |
Instruction Difficulty (LLM-as-a-Judge; Prometheus-2-8x7B Score) | ||||||||||||
GPT-4o (2024-08-06) | 3.73 | 3.57 | 3.95 | 3.75 | 3.00 | 2.76 | 2.24 | 2.67 | 3.37 | 2.14 | 2.50 | 2.67 |
GPT-4o-mini (2024-07-18) | 3.44 | 3.38 | 3.94 | 3.59 | 3.00 | 2.76 | 2.24 | 2.67 | 3.36 | 1.98 | 2.53 | 2.63 |
Claude-3.5-Sonnet (2024-06-20) | 4.11 | 4.51 | 4.45 | 4.36 | 3.00 | 2.76 | 2.24 | 2.67 | 3.38 | 2.24 | 2.61 | 2.74 |
Llama-3.1-405B-Instruct | 3.63 | 3.27 | 3.84 | 3.58 | 3.00 | 2.76 | 2.24 | 2.67 | 3.35 | 2.11 | 2.64 | 2.70 |
Llama-3.1-70B-Instruct | 3.72 | 3.43 | 3.94 | 3.69 | 3.00 | 2.76 | 2.24 | 2.67 | 3.32 | 2.21 | 2.76 | 2.76 |
Llama-3.1-8B-Instruct | 3.86 | 3.48 | 3.99 | 3.78 | 3.00 | 2.76 | 2.24 | 2.67 | 3.30 | 2.09 | 2.67 | 2.68 |
Instruction Difficulty (Perplexity) | ||||||||||||
GPT-4o (2024-08-06) | 2.13 | 1.28 | 3.44 | 2.28 | 2.26 | 4.23 | 3.41 | 3.30 | 2.03 | 3.60 | 3.83 | 3.15 |
GPT-4o-mini (2024-07-18) | 2.05 | 1.31 | 3.32 | 2.23 | 2.28 | 2.12 | 3.20 | 2.53 | 2.08 | 5.50 | 3.97 | 3.85 |
Claude-3.5-Sonnet (2024-06-20) | 2.04 | 1.34 | 3.18 | 2.19 | 2.16 | 3.48 | 3.63 | 3.09 | 1.99 | 2.46 | 3.04 | 2.50 |
Llama-3.1-405B-Instruct | 1.96 | 1.29 | 2.19 | 1.81 | 1.90 | 1.91 | 2.42 | 2.08 | 2.10 | 3.10 | 3.90 | 3.03 |
Llama-3.1-70B-Instruct | 1.78 | 1.27 | 2.19 | 1.74 | 1.86 | 1.72 | 2.52 | 2.03 | 2.12 | 2.84 | 3.98 | 2.98 |
Llama-3.1-8B-Instruct | 1.83 | 1.33 | 2.08 | 1.74 | 1.98 | 1.81 | 2.48 | 2.09 | 2.06 | 3.17 | 3.98 | 3.07 |
Response Quality (LLM-as-a-Judge; GPT-4o Score) | ||||||||||||
GPT-4o (2024-08-06) | 3.72 | 3.95 | 4.42 | 4.03 | 3.99 | 3.79 | 4.44 | 4.07 | 3.62 |