JaLMS
最新の AI 研究を日本語で解読

Evaluating Language Models as Synthetic Data Generators

Seungone Kim1  Juyoung Suk2  Xiang Yue1Vijay Viswanathan1
Seongyun Lee2
Yizhong Wang3Kiril Gashteovski4,5Carolin Lawrence4
Sean Welleck1
Graham Neubig1

Carnegie Mellon University1   KAIST AI2   University of Washington3
NEC Laboratories Europe4   Ss. Cyril and Methodius University of Skopje5
{seungone, wellecks, gneubig}@cmu.edu
Abstract

言語モデル(LM)の事後学習における合成データの使用が増加していることを踏まえると、LMが高品質なデータを生成する能力は、直接問題を解決する能力とほぼ同様に重要になってきている。先行研究では効果的なデータ生成方法の開発に焦点が当てられてきたが、統一された設定で異なるデータ生成器としてのLMを体系的に比較することが欠けていた。この課題に対処するため、我々はAgoraBenchを提案する。これはLMのデータ生成能力を評価するための標準化された設定と指標を提供するベンチマークである。6つのLMを使用して126万のトレーニングインスタンスを合成し、99の学習モデルを訓練することで、LMのデータ生成能力に関する重要な洞察を明らかにした。第一に、LMは異なる強みを示すことを観察した。例えば、GPT-4oは新しい問題の生成に優れている一方、Claude-3.5-Sonnetは既存の問題の改善においてより優れた性能を示す。さらに、我々の分析は、LMのデータ生成能力が必ずしもその問題解決能力と相関しないことを明らかにした。むしろ、応答品質、パープレキシティ、指示の難しさを含む、データ品質の複数の本質的特徴が、より良い指標として機能する。最後に、出力フォーマットの戦略的選択とコスト意識のあるモデル選択が、データ生成の有効性に大きな影響を与えることを実証した。本稿のコード、チェックポイント、およびデータはすべてhttps://github.com/neulab/data-agoraで公開されている。

1 Introduction

合成データによる言語モデル(LM)の事後学習は、幅広いタスクを解決する能力を向上させるための有望なアプローチである(Wang et al., 2023; Honovich et al., 2023; Taori et al., 2023; Liu et al., 2024b)。手動アノテーションによるデータ取得は依然として重要な役割を果たしているが、合成データ生成は人手によるラベリングを補完する拡張性のある方法を提供している(Viswanathan et al., 2023; Kim et al., 2023b)。そのため、高品質な合成データを効果的に生成するための新しい手法を提案する多くの研究がなされている(Xu et al., 2024a; Gunasekar et al., 2023; Yue et al., 2023, 2024)

同等の性能を持つ複数の独自のLMが登場し、オープンソースのLMが着実に追いついている中(Hurst et al., 2024; Anthropic, 2024; MetaAI, 2024; Team, 2024)、各LMのデータ生成能力を測定することは、新しいデータ生成手法の開発と同様に重要になってきている。さらに、独自のLMを提供する企業は、合成データの生成に最新のモデルを使用することを推奨し始めている(Nvidia, 2024)。 LM間のデータ生成能力を慎重に比較することは、これらの主張を検証し、実務者がデータ合成のためのモデルを賢明に選択することを可能にする。

LMのデータ生成器としての能力を体系的に比較するためには、統一された実験設定が必要である。そこでは、データ生成器のみが変化し、他の要素は固定されたままである。しかし、図1に示すように、これまでの研究は自身のデータ生成手法の有効性を示すことに重点を置いており、このような比較を困難にする様々な実験設定につながっている。例えば、Self-Instruct(Wang et al., 2023)、Alpaca(Taori et al., 2023)、WizardLM(Xu et al., 2024a)、Orca(Mukherjee et al., 2023)は、データ生成に使用するLMの選択、合成訓練データの量、訓練に使用するベースモデル、合成データセットで訓練されたモデルを評価するベンチマークなどが異なっている。これらの不均一な設定は、LMのデータ生成能力を分離して測定することを困難にし、制御された設定の必要性を浮き彫りにしている。

Refer to caption
図1: AgoraBenchの動機の説明: 従来の研究は合成データを生成する新しい手法の開発に焦点を当てていた。対照的に、我々の研究は既存のデータ生成手法に基づいて、異なるLMをデータ生成器として体系的に比較することに焦点を当てている。データ生成手法の詳細な説明は第2節で扱う。

この目的のため、我々はAgoraBenchを提案する。これは、3つの領域(数学、指示追従、コード)と3つのデータ生成手法(インスタンス生成、応答生成、品質向上)を組み合わせた9つの設定にわたってLMのデータ生成能力を評価するベンチマークである。各設定内では、データ生成器以外のすべての変数が制御されている:同じメタプロンプトとシードデータセットが使用され、各LMは同一数の訓練インスタンスを生成する。Llama-3.1-8Bは各合成データセットで訓練され、数学、コーディング、一般的な指示追従など、異なる能力を網羅する固定されたベンチマークセットで評価される。合成データの品質を評価するために、我々はPerformance Gap Recovered(PGR)と呼ばれる指標を定義する。これは、データで訓練されたモデル(「学生モデル」と呼ぶ)のベースモデルに対する相対的な改善を測定する。この設定に基づき、我々は6つのLMをデータ生成器として評価する:GPT-4o、GPT-4o-mini、Claude-3.5-Sonnet、およびLlama-3.1-Instruct(8、70、405B)である。111 Xu et al. (2024c)は、我々の研究と同時期の研究で、様々なLMのデータ生成能力も測定している。 我々の研究とは対照的に、彼らは「応答生成」設定のみを検討しているが、我々は3つのデータ生成設定を測定し、さらにデータの本質的な品質とPGRの関係についていくつかの追加分析も行っている。

我々の分析は、様々な種類のデータ生成手法において、異なるLM間で明確な強みがあることを明らかにしている。例えば、GPT-4oは新しいインスタンスの生成において優れたパフォーマンス(+ 46.75%)を示し、Claude-3.5-Sonnet(+ 24.14%)とLlama-3.1-405B-Instruct(+ 10.10%)の両方を上回っている。一方、Claude-3.5-Sonnetは既存のインスタンスの改善において優れており(+ 17.89%)、GPT-4o(+ 6.69%)とGPT-4o-mini(+ 5.49%)の両方を上回っている。これらの発見は、AgoraBenchが実務者に特定のニーズに適したLMを選択する指針を提供できることを示している。

意外なことに、我々は問題解決能力が弱いLMが時としてデータ生成においてより強力なLMを上回ることも発見した—例えば、Claude-3.5-Sonnet(+ 23.43%)はコードドメインにおける新しいインスタンスの生成でLlama-3.1-8B-Instruct(+ 55.69%)よりも効果が低い。これらの発見に基づき、我々はLMのデータ生成能力がその問題解決能力のみによって予測できるかどうかを調査した。我々の分析は、この二つの能力間に強い相関がないことを明らかにした。代わりに、データ品質の複数の本質的特徴—指示の難しさ、応答の質、応答の不確実性を含む—が集合的に学習モデルの改善に影響を与えている。さらに、我々は本質的測定から抽出された上位5つの主成分がPGR値の分散の93.4%を説明できることを実証した。

Refer to caption
図2: AgoraBenchは3つのデータ生成方法をテストする:新しい指示と応答のペアの生成(左)、応答の生成(中央)、指示および/または応答の品質向上(右)。

最後に、我々は効果的なデータ生成のための分析実験を行った。例えば、合成データの出力形式がパフォーマンスに大きな影響を与えることを発見した:JSON形式を使用して生成されたデータは、6つの設定全体で自由形式の生成と比較して平均4.45%低いパフォーマンスを示した。さらに、予算制約のある設定では、より弱いモデルでより多くのデータを生成することが、より強力なモデルでより少ないデータを生成するよりも優れたパフォーマンスを達成できる。我々は、GPT-4o-miniで50Kインスタンスを生成することが、3.4倍安価でありながら、3つの設定のうち2つでGPT-4oで10Kインスタンスを生成するよりも優れたパフォーマンスを達成することを発見した。

2 Preliminaries: Measuring Data Generation Capabilities of LMs

Notations.

シードデータ Dseedsubscript𝐷𝑠𝑒𝑒𝑑{D}_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT と、実行するデータ生成の種類を記述するプロンプト(「メタプロンプト」と呼ばれる)M𝑀Mitalic_M が与えられた場合、データジェネレータ G𝐺Gitalic_G は以下を生成する:

DG=G(Dseed,M),subscript𝐷𝐺𝐺subscript𝐷𝑠𝑒𝑒𝑑𝑀D_{G}=G({D}_{seed},M),italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT = italic_G ( italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT , italic_M ) , (1)

ここで、Dseedsubscript𝐷𝑠𝑒𝑒𝑑{D}_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPTDGsubscript𝐷𝐺D_{G}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT はともに {(Ii,Ri)i=1,,n}conditional-setsubscript𝐼𝑖subscript𝑅𝑖𝑖1𝑛\{(I_{i},R_{i})\mid i=1,\dots,n\}{ ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n } として表現でき、I𝐼Iitalic_I は指示を、R𝑅Ritalic_R は対応する応答を、n𝑛nitalic_n はデータのサイズを表している。

表1: AgoraBenchの設定: 9つの設定それぞれについて、評価対象の言語モデルは同じメタプロンプトとシードデータを用いて10,000インスタンスを生成する。なお、シードデータセットはインスタンス生成の訓練にも使用されることに注意されたい。
Domain Data Generation Method Seed Data Seed Data Size Benchmark
Math Instance Generation GSM8K, MATH (train set) 14,856 GSM8K, MATH (test set)
Response Generation Magpie-Reasoning (math) 10,000 GSM8K, MATH (test set)
Quality Enhancement WebInstruct (math) 10,000 GSM8K, MATH (test set)
Code Instance Generation MBPP (train set), xP3x 874 MBPP, HumanEval (test set)
Response Generation Magpie-Reasoning (code) 10,000 MBPP, HumanEval (test set)
Quality Enhancement CoNaLa 10,000 MBPP, HumanEval (test set)
Inst. Follow Instance Generation LIMA 503 AlpacaEval 2.0, Arena-Hard
Response Generation Magpie-Pro 10,000 AlpacaEval 2.0, Arena-Hard
Quality Enhancement WebInstruct (code) 10,000 AlpacaEval 2.0, Arena-Hard

Data Generation Methods.

2に示すように、データを生成するための様々な手法の大部分は、インスタンス生成、応答生成、品質向上の3つのカテゴリーに分類することができる。これらの手法は以下のように機能する:

  • インスタンス生成:小規模なシードデータセットDseed={(Ii,Ri)i=1,,m}subscript𝐷𝑠𝑒𝑒𝑑conditional-setsubscript𝐼𝑖subscript𝑅𝑖𝑖1𝑚{D}_{seed}=\{(I_{i},R_{i})\mid i=1,\dots,m\}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT = { ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_m }が与えられると、Dseedsubscript𝐷𝑠𝑒𝑒𝑑{D}_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPTからランダムにいくつかのインスタンスがサンプリングされ、文脈内デモンストレーションとして使用され、新しいインスタンスが生成される(Honovich et al., 2023; Wang et al., 2023)。このプロセスはDG={(Ii,Ri)i=1,,n}subscript𝐷𝐺conditional-setsubscript𝐼𝑖subscript𝑅𝑖𝑖1𝑛D_{G}=\{(I_{i},R_{i})\mid i=1,\dots,n\}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT = { ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n }が構築されるまで繰り返し行われ、ここでm<<nmuch-less-than𝑚𝑛m<<nitalic_m < < italic_nである。なお、生成されたインスタンスもオプションでデモンストレーションとして使用することができる。

  • 応答生成:大規模な指示セットDI={(Ii)i=1,,n}subscript𝐷𝐼conditional-setsubscript𝐼𝑖𝑖1𝑛D_{I}=\{(I_{i})\mid i=1,\dots,n\}italic_D start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT = { ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n }が与えられ、G𝐺Gitalic_Gは各指示Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを反復処理して、対応する応答Risubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを生成する(Xu et al., 2024b)

  • 品質向上:大規模な指示と応答のセットD={(Ii,Ri)i=1,,n}superscript𝐷conditional-setsubscriptsuperscript𝐼𝑖subscriptsuperscript𝑅𝑖𝑖1𝑛D^{\prime}=\{(I^{\prime}_{i},R^{\prime}_{i})\mid i=1,\dots,n\}italic_D start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT = { ( italic_I start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , italic_R start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n }が与えられる。G𝐺Gitalic_Gは各インスタンスを反復処理してIisubscriptsuperscript𝐼𝑖I^{\prime}_{i}italic_I start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTおよび/またはRisubscriptsuperscript𝑅𝑖R^{\prime}_{i}italic_R start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを改善する。例えば、G𝐺Gitalic_Gに明示的に「Iisubscriptsuperscript𝐼𝑖I^{\prime}_{i}italic_I start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTRisubscriptsuperscript𝑅𝑖R^{\prime}_{i}italic_R start_POSTSUPERSCRIPT ′ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTのいずれか/両方をより高品質にする」よう促す(例えば、指示をより難しくしたり、教育的価値を高めたりする)(Xu et al., 2024a; Yue et al., 2024)

Refer to caption
図3:回復された性能ギャップ指標の図解:回復された性能ギャップ指標は、SDGsubscript𝑆subscript𝐷𝐺S_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSrefsubscript𝑆𝑟𝑒𝑓S_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTに対する相対的な改善を捉えるものであり、ここでSDGsubscript𝑆subscript𝐷𝐺S_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSrefsubscript𝑆𝑟𝑒𝑓S_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTはともにSØsubscript𝑆ØS_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTから訓練される。

Metric.

言語モデルのデータ生成能力は、教師生成データで訓練された学習モデルの性能向上を評価することで測定できる。具体的に、我々は回復性能ギャップ(Performance Gap Recovered: PGR)という指標を提案する。これは、ベンチマークB𝐵Bitalic_Bにおける参照モデルに対する改善度を測定するものである。

PGR(G,B)=scoreB(SDG)scoreB(SØ)scoreB(Sref)scoreB(SØ)×100𝑃𝐺𝑅𝐺𝐵subscriptscore𝐵subscript𝑆subscript𝐷𝐺subscriptscore𝐵subscript𝑆Øsubscriptscore𝐵subscript𝑆𝑟𝑒𝑓subscriptscore𝐵subscript𝑆Ø100PGR(G,B)=\frac{{\text{score}}_{B}({S}_{D_{G}})-{\text{score}}_{B}({S}_{\text{% \O}})}{{\text{score}}_{B}({S}_{ref})-{\text{score}}_{B}({S}_{\text{\text{\O}}}% )}\times 100italic_P italic_G italic_R ( italic_G , italic_B ) = divide start_ARG score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPT ) - score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT ) end_ARG start_ARG score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT ) - score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT ) end_ARG × 100 (2)

ここで、SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTは事前訓練された言語モデルを、SDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTで訓練されたDGsubscript𝐷𝐺D_{G}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPTを、Srefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTSØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTと同じ事前訓練モデルをベースモデルとして共有する参照モデルを、そしてscoreB()subscriptscore𝐵{\text{score}}_{B}(\cdot)score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( ⋅ )はベンチマークB𝐵Bitalic_Bにおけるスコアを表す。我々の実験では、SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTとしてLlama-3.1-8Bを、Srefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTとしてLlama-3.1-8B-Instructを使用する。222 scoreB(SØ)subscriptscore𝐵subscript𝑆Ø{\text{score}}_{B}({S}_{\text{\O}})score start_POSTSUBSCRIPT italic_B end_POSTSUBSCRIPT ( italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT )を測定する際、SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTはゼロショットプロンプティングでタスクを解決できないため、フューショットプロンプティングで性能を評価することに注意されたい。 対照的に、SDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSrefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTはゼロショットプロンプティングで評価される。

直感的に、図3に示されているように、SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTとしてLlama-3.1-8Bを、Srefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTとしてLlama-3.1-8B-Instructを使用することで、PGR値はLlama-3.1-8B-Instructの事後訓練プロセスと比較してどれだけの性能が回復されたかを表している。この事後訓練プロセスは、報告によると1000万以上の人間がキュレーションしたデータ例を用いた広範な訓練であった(MetaAI, 2024)。例えば、PGR値が50%の場合、SDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSrefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTSØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTに対して達成した改善の50%を回復したことを示す。100%を超える値はSDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTSrefsubscript𝑆𝑟𝑒𝑓{S}_{ref}italic_S start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPTを上回ることを示し、負の値はDGsubscript𝐷𝐺D_{G}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPTでの訓練がB𝐵Bitalic_Bにおける性能を、SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTのフューショットプロンプティングと比較して低下させたことを示す。

Training Student Models.

学生モデル(SØsubscript𝑆ØS_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT)を訓練する際、我々は教師あり微調整(SFT)を採用し、応答トークンのみに対して損失を計算する。我々は生成されたデータDGsubscript𝐷𝐺D_{G}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPTをフィルタリングせずに直接使用し、他の事後訓練手法は考慮しない。これは、最も単純な設定において言語モデル(G𝐺Gitalic_G)の生のデータ生成能力を評価することが我々の目的であり、SDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPTのベンチマークパフォーマンスを最大化することではないためである。訓練のハイパーパラメータの詳細は付録Dに記載されている。

表2:AgoraBenchの結果:LLMを使用して10,000インスタンスを生成することで、MetaがLlama-3.1-8BからLlama-3.1-8B-Instructを訓練するための事後訓練プロセスと比較して、どの程度のパフォーマンスを回復できるか? 最良の比較可能なパフォーマンス(%)は太字で、2番目に良いパフォーマンス(%)は下線で示されている。Llamaモデルは指示調整版であり、「Inst.」は指示追従を意味することに注意されたい。
Data Generator Instance Generation Response Generation Quality Enhancement
Math Code Inst. Avg Math Code Inst. Avg Math Code Inst. Avg
GPT-4o 20.6 73.6 46.1 46.8 46.7 28.5 30.3 35.2 21.9 -8.8 7.1 6.7
GPT-4o-mini 16.1 41.9 18.0 25.3 48.1 18.9 13.7 26.9 17.8 -11.2 9.9 5.5
Claude-3.5-Sonnet 8.9 23.4 40.1 24.1 29.0 44.5 12.7 28.8 15.7 16.1 21.8 17.9
Llama-3.1-405B 10.4 12.6 7.4 10.1 31.7 35.4 4.9 24.0 -11.8 7.5 3.6 -0.2
Llama-3.1-70B 9.6 58.7 6.5 24.9 23.0 37.1 4.5 21.5 -21.8 6.9 2.7 -4.1
Llama-3.1-8B 6.5 55.7 6.2 22.8 27.6 25.8 5.0 19.4 -1.7 15.4 3.0 5.6

3 Experimental Setting of AgoraBench

様々な選択肢の中で、AgoraBenchは言語モデルにとって重要と考えられる3つの中核的能力に焦点を当てている:指示に従う能力、数学的推論、およびコーディング(Chang et al., 2024; Guo et al., 2023; Hurst et al., 2024; Anthropic, 2024)AgoraBenchの全体的な実験設定(各設定のドメイン、シードデータセット、およびベンチマークを含む)は表1に記載されている。

Domains.

AgoraBenchは数学、コード、指示に従う能力の3つのドメインを包含している。各ドメインにおいて3つのデータ生成手法を評価することで、9つの異なる設定が生まれ、それぞれに専用のシードデータセット(Dseedsubscript𝐷𝑠𝑒𝑒𝑑D_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT)とベンチマーク(B𝐵Bitalic_B)がある。各設定において、データ生成器として使用される言語モデルは10,000の訓練インスタンスを生成する。

その後、生成されたデータの品質の効果を分離するために、学習モデルは単一のドメインからのデータを使用して訓練される。これは、クロスドメイン訓練が正または負の転移を通じて交絡因子を導入する可能性があるためである(例えば、コードデータでの訓練が数学を改善する(Dong et al., 2023; Zhang et al., 2024))。

Seed Datasets.

各設定において、我々は以下の異なる前提に基づいてシードデータセット(Dseedsubscript𝐷𝑠𝑒𝑒𝑑D_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT)を選択する:

  • インスタンス生成については、少量の高品質データを大量に拡張するため、我々のアプローチは高品質の人手で作成されたデータをシードデータとして使用することを前提としている。そのため、数学には GSM8K (Cobbe et al., 2021)と MATH (Hendrycks et al., 2021)の訓練サブセット、コードには MBPP (Austin et al., 2021)と xP3x (Muennighoff et al., 2023b)、指示文フォローイングには LIMA (Zhou et al., 2024)を使用する。Llama-3 トークナイザーに基づいて 4,096 トークンを超えるインスタンスを除外し、結果として数学、コード、指示文フォローイングの各ドメインについて、それぞれ 14,856、874、503 のシードインスタンスを得た。

  • 応答生成については、異なるデータ生成器が固定された指示文セットに応答を付加して、最終的により高品質なデータを作成する方法をシミュレートする。実験のために任意のデータを取得し、その応答を破棄することも可能であるが、我々は Magpie データセットを利用する。なぜなら、Xu et al. (2024b)の設定が我々の設定と密接に一致しているからである - 彼らは最初に空のチャットテンプレートで LM にプロンプトを与えて指示文を抽出し、その後 2 種類の異なる LM(Llama-3-70B-Instruct と Qwen-2-72B-Instruct)を使用して応答を生成している。 我々の実験では、指示文フォローイングドメインには Magpie データセット (Xu et al., 2024b)から 10K インスタンスをサンプリングし、数学とコードの両ドメインには Magpie-Reasoning データセットから 10K インスタンスをサンプリングする。

  • 品質向上については、指示文と応答の完全なインスタンスが既に存在するが、ポストトレーニングに使用する前に品質向上が必要なシナリオをテストする - これは指示文が単純すぎるか、応答が十分に詳細でないためである。指示文フォローイングと数学ドメインには、WebInstruct(改善が必要なウェブからの Q-A ペア;Yue et al. (2024)参照)から 10K インスタンスをサンプリングする。WebInstruct にはドメインラベルが含まれていないため、GPT-4o-mini-2024-07-18 にプロンプトを与えて別の Dseedsubscript𝐷𝑠𝑒𝑒𝑑D_{seed}italic_D start_POSTSUBSCRIPT italic_s italic_e italic_e italic_d end_POSTSUBSCRIPT を準備する(詳細は付録 B を参照)。コードドメインには、StackOverflow からの単純な指示文と 1-3 行のコードスニペットのペアを含む CoNaLa を使用する (Yin et al., 2018)

Benchmarks.

我々は、各ドメインにおいて2つの代表的なベンチマークを用いて学習モデル(SDGsubscript𝑆subscript𝐷𝐺{S}_{D_{G}}italic_S start_POSTSUBSCRIPT italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPT end_POSTSUBSCRIPT)の性能を評価する。数学については、GSM8K (Cobbe et al., 2021)とMATH (Hendrycks et al., 2021)のテストサブセットを使用する。コードについては、MBPP (Austin et al., 2021)のテストセットとHumanEval (Chen et al., 2021)を使用する。指示追従については、AlpacaEval-2.0 (Dubois et al., 2024)とArena-Hard (Li et al., 2024)で評価を行う。

4 Experimental Results of AgoraBench

我々は6つのLMをデータ生成器(G𝐺Gitalic_G)として比較した。具体的には、GPT-4o-2024-08-06 (Hurst et al., 2024)、GPT-4o-mini-2024-07-18、Claude-3.5-Sonnet-2024-06-20 (Anthropic, 2024)、Llama-3.1-405B-Instruct、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instruct (Dubey et al., 2024)である。また、Llama-3.1-8Bを学習モデル(SØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT)として使用した。AgoraBenchの結果は表2に示されている。

GPT-4o is the overall most performant data generator:

9つの実験設定のうち、GPT-4oは5つの設定で最高のPGRスコアを達成している。特にインスタンス生成における性能が顕著であり、3つの領域全てにおいて他のLMを上回るデータ生成器としての性能を示している(数学で20.6%、コードで73.6%、指示追従で46.1%、総平均で46.8%)。また、応答生成においても最高の平均PGRスコア(35.2%)を達成している。

Claude-3.5-Sonnet proves particularly effective for quality enhancement:

Claude-3.5-Sonnetは、特に品質向上において強力な性能を示し、3つのドメインのうち2つで最高のPGRスコアを達成している(コードで21.8%、指示の遵守で17.9%、総平均で17.9%)。さらに、コードドメインにおける応答生成で最高のPGRスコア(44.5%)を獲得し、9つの設定のうち3つで最高性能を達成している。

表3: APIコスト、問題解決能力、データ生成能力の比較: 我々の調査結果は、言語モデルの強さもコストも、データ生成器としての有効性を保証するものではないことを明らかにしている。Llamaモデルは指示調整版であること、各ベンチマークにおける言語モデルの具体的な結果(「問題解決平均」として平均化)は付録Cにあること、およびAgoraBenchの結果は表2から平均化されていることに注意されたい。
Data Generator API Cost Prob. Data
Solv. Gen.
Input Output Avg Agora
Bench
GPT-4o $2.50 $10.00 80.9 29.5%
GPT-4o-mini $0.15 $0.60 75.4 19.2%
Claude-3.5-Sonnet $3.00 $15.00 80.5 23.6%
Llama-3.1-405B $1.79 $1.79 75.0 11.3%
Llama-3.1-70B $0.35 $0.40 69.6 14.1%
Llama-3.1-8B $0.055 $0.055 50.2 15.9%
Refer to caption
図4: 問題解決能力とデータ生成能力には強い相関がない: 問題解決能力とデータ生成能力スコアの間の線形回帰を複数の粒度レベルで行うと、低いR2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT値(R2<0.1superscript𝑅20.1R^{2}<0.1italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT < 0.1)または有意でない関係(p>0.05𝑝0.05p>0.05italic_p > 0.05)が得られる。これは、問題解決能力のみを用いてデータ生成能力を予測することが困難であることを示している。

Weaker LMs can outperform Stronger LMs:

我々は、問題解決能力が弱いLMが、より強力な対応モデルよりも高いPerformance Gap Recovered (PGR)スコアを達成する事例を観察した。コードドメインのインスタンス生成において、Claude-3.5-Sonnet (23.4%)とLlama-3.1-405B-Instruct (12.6%)は、Llama-3.1-70B-Instruct (58.7%)とLlama-3.1-8B-Instruct (55.7%)に劣る結果となった。同様に、コードドメインの品質向上設定では、GPT-4o (-8.8%)とGPT-4o-mini (-11.2%)が他のLMと比較して劣った性能を示した。

興味深いことに、表3に示されているように、これらのケースで性能が低かったLMは、実際にはコードベンチマーク(MBPPとHumanEval)でより高いスコアを獲得しており、より強力な問題解決能力を持っていることを示している。この矛盾は、より強力なLMが必ずしもより良いトレーニングデータを生成するわけではないことを示唆している。我々はこの現象についてセクション5でさらに議論する。

GPT-4o, GPT-4o-mini, and Llama-3.1-8B-Instruct are effective data generators that balance both cost and performance:

大量の合成データを生成する際、パフォーマンスと並んでコストも重要な要素である。表3にはAPIコスト333価格はhttps://openrouter.ai/に基づいている。、ベンチマークスコア(すなわち問題解決能力)、およびAgoraBenchでの平均パフォーマンス(すなわちデータ生成能力)が6つのLMすべてについて記載されている。Llama-3.1-8B-InstructはLlama-3.1-70B-InstructとLlama-3.1-405B-Instructの両方を上回るパフォーマンスを示し、コストは6倍から32.5倍低い。同様に、GPT-4oはClaude-3.5-Sonnetよりも1.2倍から1.5倍低いコストでより良いパフォーマンスを達成している。これらの発見は、より高価なLMを使用することが必ずしもより良いデータ生成を保証するものではないことを示唆しており、特定のタスクや関心のあるドメインに基づいて慎重にモデルを選択することの重要性を強調している。

5 What makes an effective data generator?

Refer to caption
図5: 複数の内在的評価指標に対するPCA分析を通じて、データ生成能力の分散を93.4%まで説明する解釈可能な低次元の主成分が存在することが明らかになった

前節では、予想外の発見があった。問題解決能力が劣る言語モデルが、同一条件下で同量の合成データを生成する際に、より強力な言語モデルを上回ることがあるのである。この現象をより深く理解するために、我々はまず問題解決能力とデータ生成能力の間に強い相関関係が存在するかどうかを検討する(第5.1節)。次に、各言語モデルによって生成されたデータを分析することで、学習モデルの性能向上の度合いを予測できるかどうかを調査する(第5.2節)。

5.1 Is the best solver necessarily the best generator?

データ生成能力と問題解決能力の関係を調べるために、我々は2つの指標を比較する線形回帰分析を実施した。複数のベンチマーク(GSM8K、MATH、MBPP、HumanEval、AlpacaEval-2.0、Arena-Hard)における平均性能とAgoraBenchのスコアである。この分析は2つの粒度レベルで行われた。第一の分析(粗粒度)では、全ドメインおよびデータ生成設定にわたるAgoraBenchの総合平均スコアを使用した。第二の分析(細粒度)では、AgoraBenchの異なるドメインおよびデータ生成設定からの個別スコアを別々に検討した。

4に示された結果は、いずれの粒度レベルにおいても、問題解決能力(ベンチマークスコア)とデータ生成能力(AgoraBench PGRスコア)の間に強い線形相関がないことを明らかにしている。この発見は、従来のベンチマークにおける言語モデルの性能が、データ生成器としての有効性を予測しない可能性があることを示唆している。

5.2 Can we predict the student model’s improvement by looking into the data?

問題解決能力がデータ生成能力を直接予測しないことを踏まえ、我々は効果的なデータ生成器を定義する他の特性を探究する。我々は、学習モデルを大幅に改善できる良質なデータには、その本質的な特性を分析することで識別可能な抽出可能な特徴があるという仮説を立てる。 この理解は、優れたデータ生成器からのデータがどのような特性を持つ可能性があるかを我々に示すため、極めて重要である。 Liu et al. (2023b)に触発され、我々は生成されたデータDGsubscript𝐷𝐺D_{G}italic_D start_POSTSUBSCRIPT italic_G end_POSTSUBSCRIPTの様々な特性を分析することで本質的評価を行う。

Intrinsic Evaluation Metrics

我々は以下を評価する:(1)指示Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの複雑さ、(2)応答Risubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの質、(3)学習モデルSØsubscript𝑆ØS_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPTを用いたRisubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの不確実性、(4)指示と応答それぞれの多様性:

  • 応答の質:我々はIisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTに対するRisubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの質を測定する。 以下の2つの方法を用いる:

    • LLMを判定者としたスコア:我々はLMにRisubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの質を表す1から5の離散的なスコアを返すよう促す。2つのLM判定者を採用する:(1) Prometheus-2-8x7B (Kim et al., 2024)、LM出力の評価に特化したオープンソースLM、(2) GPT-4o、判定者として広く使用されている独自のLM。各ドメインに対して異なるスコアの基準を使用し、それらは付録Gに記載されている。

    • 報酬モデルスコア:我々は報酬モデルを使用して、Risubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの質を表すスカラー値スコアを予測する。Reward Bench (Lambert et al., 2024)で最高性能の報酬モデルの1つであるSkywork-Reward-Llama-3.1-8B (Liu et al., 2024a)を使用する。

  • 指示の複雑さ(LLMを判定者としたスコア):我々はLMにIisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの複雑さを表す1から5の離散的なスコアを返すよう促すことで、Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTの難しさを測定する。応答の質を評価する場合と同様に、Prometheus-2-8x7BとGPT-4oを判定者として使用する。応答の質を評価する場合とは異なるスコアの基準を使用し、各ドメインに対して異なる基準を用いる。これらは付録Gに記載されている。

  • 応答の不確実性:我々はベースモデルSØsubscript𝑆Ø{S}_{\text{\O}}italic_S start_POSTSUBSCRIPT Ø end_POSTSUBSCRIPT(Llama-3.1-8B)を用いて、Iisubscript𝐼𝑖I_{i}italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPTを条件としたRisubscript𝑅𝑖R_{i}italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT不確実性を測定する。

  • インスタンスの多様性:我々はDI={(Ii)i=1,,n}subscript𝐷𝐼conditional-setsubscript𝐼𝑖𝑖1𝑛D_{I}=\{(I_{i})\mid i=1,\dots,n\}italic_D start_POSTSUBSCRIPT italic_I end_POSTSUBSCRIPT = { ( italic_I start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n }内の指示とDR={(Ri)i=1,,n}subscript𝐷𝑅conditional-setsubscript𝑅𝑖𝑖1𝑛D_{R}=\{(R_{i})\mid i=1,\dots,n\}italic_D start_POSTSUBSCRIPT italic_R end_POSTSUBSCRIPT = { ( italic_R start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) ∣ italic_i = 1 , … , italic_n }内の応答の平均コサイン類似度をそれぞれ測定する。これは各指示または応答が広く分布している(すなわち、多様である)程度を表す(Ni et al., 2024)。MTEBベンチマーク(Muennighoff et al., 2023a)で高性能かつ効率的なdunzhang/stella_en_400M_v5モデルを使用する。

ページ数の制限により、本質的評価の詳細な結果は付録Eに記載されている。

Refer to caption
図6:本質的指標から得られた主成分はデータ生成能力とより強い相関を示す:重み付けされた上位5つの主成分を用いた線形回帰は、問題解決能力スコアのみを使用した場合(R2<0.1superscript𝑅20.1R^{2}<0.1italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT < 0.1またはp>0.05𝑝0.05p>0.05italic_p > 0.05;図4参照)と比較して、より高い説明分散(R2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = 0.325)と統計的有意性(p<0.001𝑝0.001p<0.001italic_p < 0.001)を示す。

Experiments

Ruan et al. (2024)の実験に触発され、我々は本質的評価指標がAgoraBenchの結果の変動を説明できるかどうかを調査するために主成分分析(PCA)を実施する。我々の本質的評価指標間の相互依存性のため、多変量線形回帰ではなくPCAを選択する。

Intrinsic Metric Loading Strength Contribution
Prometheus Score (R.Q.) 0.256 12.18%
Response Perplexity 0.252 12.00%
GPT-4o Score (R.Q.) 0.246 11.71%
Problem-solving Ability 0.240 11.42%
Skywork-RM Score (R.Q.) 0.239 11.38%
Prometheus Score (I.D.) 0.230 10.95%
Diversity (I.D.) 0.226 10.76%
GPT-4o Score (I.D.) 0.223 10.61%
Diversity (R.Q.) 0.189 9.00%
表4:本質的指標の主成分への平均寄与度:負荷強度は、すべての主成分にわたる特徴の負荷の平均的な大きさを表し、寄与度は全体的な成分構造における各特徴の負荷強度の相対的な割合を表す正規化された値である。'I.D.'は指示の難しさを測定する指標を、'R.Q.'は応答の質を測定する指標を指す。すべての本質的評価指標が主成分に対して実質的な寄与(0.189-0.256)を示している。

5に示す結果は、上位5つの主成分がAgoraBench結果の分散の約93.4%を説明することを明らかにしている(それぞれ39.2%、30.4%、11.9%、7.0%、4.9%)。さらに、成分の重みの分析により解釈可能なパターンが明らかになった。第一主成分(PC-1)は指示の難しさと多様性関連の指標に強く影響を受けている。第二成分(PC-2)は応答の質と指示の難しさの影響を受け、第三成分(PC-3)は多様性関連の指標、応答の質、およびLMの問題解決能力を組み合わせている。

さらに、表4に示すように、各本質的評価指標の平均負荷強度(すべての主成分にわたる特徴の負荷の平均的な大きさ、データの全体的な分散に各指標がどの程度強く影響を与えるかを示す)を分析すると、寄与度が0.189から0.256の範囲であることが観察され、すべての本質的評価指標がPGR結果に同程度寄与していることがわかる。また、応答の質に関連する指標が、多様性関連の指標や指示の難しさに関連する指標よりもPGR結果にわずかに強い寄与を示すことがわかった。

Refer to caption
図7:固定予算の場合、より弱いLMで大量のデータを生成する方が、より強いLMで少数のインスタンスを生成するよりも効果的で安価な場合がある: GPT-4o-miniはGPT-4oの17分の1の価格であるため、50Kインスタンスの生成はGPT-4oで10Kインスタンスを生成するよりも3.4倍安価である。しかし、GPT-4o-miniで50Kインスタンスを生成することは、指示遵守と数学のドメインにおいて、GPT-4oで10Kインスタンスを生成するよりも高いPGRを達成する。
表5:インスタンス生成と品質向上に関する異なるメタプロンプトでの性能ギャップ回復率(%)の結果。Llamaモデルは指示調整版であり、'Inst.'は指示遵守を表す。
Data Generator AgoraBench Meta-prompt Unoptimized Meta-prompt JSON-format Meta-prompt
Math Code Inst. Avg Math Code Inst. Avg Math Code Inst. Avg
Instance Generation
GPT-4o-mini 16.1 41.9 18.0 25.3 12.4 36.8 17.6 22.3 13.8 20.5 19.5 17.9
Llama-3.1-70B 9.6 58.7 6.5 24.9 7.0 46.8 5.8 19.9 8.7 33.5 6.1 16.1
Llama-3.1-8B 6.5 55.7 6.2 22.8 0.7 43.6 4.5 16.3 6.7 31.4 4.4 14.2
Quality Enhancement
GPT-4o-mini 17.8 -11.2 9.9 5.5 13.0 -6.3 9.4 5.4 15.4 -13.0 9.2 3.8
Llama-3.1-70B -21.8 6.9 2.7 -4.1 -20.5 -5.5 2.3 -7.9 -18.3 6.5 2.4 -3.1
Llama-3.1-8B -1.7 15.4 3.0 5.6 -6.6 3.7 3.5 0.2 -2.7 12.0 3.9 4.4

最後に、図6に示すように、上位5つの主成分に対して線形回帰を実行し、各成分をその回帰係数で重み付けすることでデータ生成能力を予測する。問題解決スコアのみを使用する場合(図4)と比較して、このアプローチは統計的に有意な関係(p<0.001𝑝0.001p<0.001italic_p < 0.001)と改善された説明力(R2=0.325superscript𝑅20.325R^{2}=0.325italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = 0.325)をもたらす。しかし、中程度のR2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT値は、データ生成能力をより良く予測するために、現在の指標セットを超えた追加の本質的測定が必要である可能性を示唆している。この問題のさらなる探究は今後の研究に委ねる。

6 Further Analysis Experiments

本節では、データ生成に関する2つの重要な問いについてさらに検討する:(1) より安価なLMを用いて量を優先すべきか、それともより高価なLMを用いて質を優先すべきか?(6.1節)そして (2) メタプロンプトの設計、特に構造化されたJSON形式の生成と従来の自由形式のアプローチを比較した場合、どのような影響があるか?(6.2節)。

6.1 Quantity or quality?

4節では、固定数のインスタンスを生成する場合、より安価なLMが高価なLMよりも効果的なデータ生成器となる場合があることを示した。ただし、一般的には高価なモデルの方がより良い性能を示す。これは実用的な問いを提起する:より安価なモデルを使用してより多くのインスタンスを生成する方が、高価なモデルでより少ないインスタンスを生成するよりも効果的なのだろうか?

我々は実験を拡大し、GPT-4o-mini、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instructを使用して、インスタンス生成シナリオの3つのドメインで最大50Kインスタンスを生成した。図7に示すように、GPT-4o-miniで50Kインスタンスを生成することは、指示遵守と数学のドメインでGPT-4oで10Kインスタンスを生成するよりも良い性能をもたらした。また、Llama-3.1-8B-Instructはコードドメインで同様のパターンを示した。これらのLMはGPT-4oよりも少なくとも5倍コスト効率が高いことを考えると、我々の発見は、より安価なLMでより大量の合成データを生成することが、高価なLMでより小規模なデータセットを生成するよりも有利である可能性を示唆している。さらに、これは訓練インスタンス数が異なる2つの設定を比較する際、指示の多様性または応答の多様性がPGR結果に影響を与える可能性があることを示唆している。

6.2 Effect of Meta-prompts

最近、Tam et al. (2024)は、LMが構造化された形式(例えば、JSON)で応答を生成する際に問題解決能力が低下することを示している。実務者がLMを使用する際に構造化された出力を好むことを考えると(Shorten et al., 2024; Liang et al., 2024)、この形式がデータ生成性能に影響を与えるかどうかを調査することは重要である。さらに、我々はメタプロンプトの設計が生成品質に与える影響を検討する。

これらの問題を調査するために、我々は比較用に4つの追加メタプロンプトを作成した。各設定(インスタンス生成と品質向上)について、2人の共著者がメタプロンプトを作成した:1人は最適化されていないバージョン(10分未満で作成)444これは、初期実験段階で2時間以上かけて反復的な試行錯誤を通じて開発された本実験のメタプロンプトとは対照的である。を開発し、もう1人はJSON形式のバージョンを作成した。

5に我々の調査結果を示す。他のメタプロンプトと比較して、AgoraBenchメタプロンプトは6つの設定のうち5つで最高スコアを達成し、AgoraBenchの設定の堅牢性を示している。AgoraBenchメタプロンプトと最適化されていないバージョンを比較すると、平均して3.97%の性能差が見られ、メタプロンプトの最適化の重要性が浮き彫りになる。さらに、自由形式の生成を使用するAgoraBenchメタプロンプトは、JSON形式のプロンプトと比較して4.45%高い性能を達成している。これは、構造化された形式の要件がLMの出力品質を損なう可能性があるという最近の知見と一致する(Tam et al., 2024)

7 Conclusion

本稿では、標準化された設定と指標を通じてLMのデータ生成能力を体系的に評価するベンチマーク、AgoraBenchを紹介する。我々の分析により、モデルは異なる生成方法や領域において異なる強みを示すことが明らかになり、データ生成器の慎重な選択の重要性が浮き彫りになった。LMのデータ生成能力はコストや問題解決能力のみでは予測できないが、我々は内在的評価測定から解釈可能な低次元の主成分を特定し、これらが分散の最大93.4%を説明し、より優れた予測因子として機能することを見出した。

今後、AgoraBenchは分野における2つの重要な進展を可能にすると我々は考えている。第一に、我々の発見は問題解決能力がデータ生成の質の主要な決定要因ではないことを示唆しているため、研究者は我々のベンチマークを使用して、効果的なデータ生成器を構成する核心的な能力を特定し、潜在的にデータ生成に特化した専門的なLMを開発することができる。第二に、AgoraBenchは実務者がデータ生成パイプラインを評価し改善するための実用的な評価フレームワークとして機能する可能性がある - 彼らは独自のデータ生成方法、シードデータセット、またはメタプロンプトを使用し、我々のベースライン設定と比較することができる。さらに、彼らは我々の体系的な評価方法を活用して、大規模なデータ作成を展開する前に生成パラメータを最適化することができる。これらの相補的な研究と応用の方向性を通じて、AgoraBenchはデータ生成器としての言語モデルに関する我々の理論的理解と、実世界のアプリケーションにおける実用的な展開の両方を加速することを目指している。

References

  • Anthropic (2024) Anthropic, A. Claude 3.5 sonnet model card addendum. Claude-3.5 Model Card, 2024.
  • Austin et al. (2021) Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • Brown et al. (2020) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Language models are few-shot learners. Advances in neural information processing systems, 2020.
  • Chang et al. (2024) Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., et al. A survey on evaluation of large language models. ACM Transactions on Intelligent Systems and Technology, 15(3):1–45, 2024.
  • Chen et al. (2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
  • Cobbe et al. (2021) Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., and Schulman, J. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Dong et al. (2023) Dong, G., Yuan, H., Lu, K., Li, C., Xue, M., Liu, D., Wang, W., Yuan, Z., Zhou, C., and Zhou, J. How abilities in large language models are affected by supervised fine-tuning data composition. arXiv preprint arXiv:2310.05492, 2023.
  • Dubey et al. (2024) Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Dubois et al. (2024) Dubois, Y., Galambosi, B., Liang, P., and Hashimoto, T. B. Length-controlled alpacaeval: A simple way to debias automatic evaluators. arXiv preprint arXiv:2404.04475, 2024.
  • Gunasekar et al. (2023) Gunasekar, S., Zhang, Y., Aneja, J., Mendes, C. C. T., Del Giorno, A., Gopi, S., Javaheripi, M., Kauffmann, P., de Rosa, G., Saarikivi, O., et al. Textbooks are all you need. arXiv preprint arXiv:2306.11644, 2023.
  • Guo et al. (2023) Guo, Z., Jin, R., Liu, C., Huang, Y., Shi, D., Yu, L., Liu, Y., Li, J., Xiong, B., Xiong, D., et al. Evaluating large language models: A comprehensive survey. arXiv preprint arXiv:2310.19736, 2023.
  • Hendrycks et al. (2021) Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. Measuring mathematical problem solving with the math dataset. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2), 2021.
  • Honovich et al. (2022) Honovich, O., Shaham, U., Bowman, S. R., and Levy, O. Instruction induction: From few examples to natural language task descriptions. arXiv preprint arXiv:2205.10782, 2022.
  • Honovich et al. (2023) Honovich, O., Scialom, T., Levy, O., and Schick, T. Unnatural instructions: Tuning language models with (almost) no human labor. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  14409–14428, 2023.
  • Hurst et al. (2024) Hurst, A., Lerer, A., Goucher, A. P., Perelman, A., Ramesh, A., Clark, A., Ostrow, A., Welihinda, A., Hayes, A., Radford, A., et al. Gpt-4o system card. arXiv preprint arXiv:2410.21276, 2024.
  • Kim et al. (2023a) Kim, S., Joo, S., Kim, D., Jang, J., Ye, S., Shin, J., and Seo, M. The cot collection: Improving zero-shot and few-shot learning of language models via chain-of-thought fine-tuning. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp.  12685–12708, 2023a.
  • Kim et al. (2023b) Kim, S., Joo, S. J., Jang, Y., Chae, H., and Yeo, J. Cotever: Chain of thought prompting annotation toolkit for explanation verification. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pp.  195–208, 2023b.
  • Kim et al. (2024) Kim, S., Suk, J., Longpre, S., Lin, B. Y., Shin, J., Welleck, S., Neubig, G., Lee, M., Lee, K., and Seo, M. Prometheus 2: An open source language model specialized in evaluating other language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pp.  4334–4353, 2024.
  • Lambert et al. (2024) Lambert, N., Pyatkin, V., Morrison, J., Miranda, L., Lin, B. Y., Chandu, K., Dziri, N., Kumar, S., Zick, T., Choi, Y., et al. Rewardbench: Evaluating reward models for language modeling. arXiv preprint arXiv:2403.13787, 2024.
  • Li et al. (2024) Li, T., Chiang, W.-L., Frick, E., Dunlap, L., Wu, T., Zhu, B., Gonzalez, J. E., and Stoica, I. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. arXiv preprint arXiv:2406.11939, 2024.
  • Liang et al. (2024) Liang, J., Li, G., and Yu, Y. Universal and context-independent triggers for precise control of llm outputs. arXiv preprint arXiv:2411.14738, 2024.
  • Liu et al. (2024a) Liu, C. Y., Zeng, L., Liu, J., Yan, R., He, J., Wang, C., Yan, S., Liu, Y., and Zhou, Y. Skywork-reward: Bag of tricks for reward modeling in llms. arXiv preprint arXiv:2410.18451, 2024a.
  • Liu et al. (2023a) Liu, J., Xia, C. S., Wang, Y., and Zhang, L. Is your code generated by chatGPT really correct? rigorous evaluation of large language models for code generation. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a. URL https://openreview.net/forum?id=1qvx610Cu7.
  • Liu et al. (2024b) Liu, R., Wei, J., Liu, F., Si, C., Zhang, Y., Rao, J., Zheng, S., Peng, D., Yang, D., Zhou, D., et al. Best practices and lessons learned on synthetic data. In First Conference on Language Modeling, 2024b.
  • Liu et al. (2023b) Liu, W., Zeng, W., He, K., Jiang, Y., and He, J. What makes good data for alignment? a comprehensive study of automatic data selection in instruction tuning. In The Twelfth International Conference on Learning Representations, 2023b.
  • Longpre et al. (2023) Longpre, S., Hou, L., Vu, T., Webson, A., Chung, H. W., Tay, Y., Zhou, D., Le, Q. V., Zoph, B., Wei, J., et al. The flan collection: Designing data and methods for effective instruction tuning. In International Conference on Machine Learning, pp.  22631–22648. PMLR, 2023.
  • MetaAI (2024) MetaAI. Introducing meta llama 3: The most capable openly available llm to date. 2024. URL https://ai.meta.com/blog/meta-llama-3/.
  • Mishra et al. (2022) Mishra, S., Khashabi, D., Baral, C., and Hajishirzi, H. Cross-task generalization via natural language crowdsourcing instructions. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, 2022.
  • Muennighoff et al. (2023a) Muennighoff, N., Tazi, N., Magne, L., and Reimers, N. Mteb: Massive text embedding benchmark. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pp.  2014–2037, 2023a.
  • Muennighoff et al. (2023b) Muennighoff, N., Wang, T., Sutawika, L., Roberts, A., Biderman, S., Le Scao, T., Bari, M. S., Shen, S., Yong, Z. X., Schoelkopf, H., et al. Crosslingual generalization through multitask finetuning. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  15991–16111, 2023b.
  • Mukherjee et al. (2023) Mukherjee, S., Mitra, A., Jawahar, G., Agarwal, S., Palangi, H., and Awadallah, A. Orca: Progressive learning from complex explanation traces of gpt-4. arXiv preprint arXiv:2306.02707, 2023.
  • Ni et al. (2024) Ni, J., Xue, F., Yue, X., Deng, Y., Shah, M., Jain, K., Neubig, G., and You, Y. Mixeval: Deriving wisdom of the crowd from LLM benchmark mixtures. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=6A29LUZhfv.
  • Nvidia (2024) Nvidia. Leverage the Latest Open Models for Synthetic Data Generation with NVIDIA Nemotron-4-340B. https://developer.nvidia.com/blog/leverage-our-latest-open-models-for-synthetic-data-generation-with-nvidia-nemotron-4-340b/, 2024.
  • Ruan et al. (2024) Ruan, Y., Maddison, C. J., and Hashimoto, T. Observational scaling laws and the predictability of langauge model performance. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=On5WIN7xyD.
  • Shorten et al. (2024) Shorten, C., Pierse, C., Smith, T. B., Cardenas, E., Sharma, A., Trengrove, J., and van Luijt, B. Structuredrag: Json response formatting with large language models. arXiv preprint arXiv:2408.11061, 2024.
  • Tam et al. (2024) Tam, Z. R., Wu, C.-K., Tsai, Y.-L., Lin, C.-Y., Lee, H.-y., and Chen, Y.-N. Let me speak freely? a study on the impact of format restrictions on performance of large language models. arXiv preprint arXiv:2408.02442, 2024.
  • Taori et al. (2023) Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., and Hashimoto, T. B. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.
  • Team (2024) Team, Q. Qwen2.5: A party of foundation models, September 2024. URL https://qwenlm.github.io/blog/qwen2.5/.
  • Viswanathan et al. (2023) Viswanathan, V., Zhao, C., Bertsch, A., Wu, T., and Neubig, G. Prompt2model: Generating deployable models from natural language instructions. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp.  413–421, 2023.
  • Wang et al. (2022) Wang, Y., Mishra, S., Alipoormolabashi, P., Kordi, Y., Mirzaei, A., Naik, A., Ashok, A., Dhanasekaran, A. S., Arunkumar, A., Stap, D., et al. Super-naturalinstructions: Generalization via declarative instructions on 1600+ nlp tasks. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp.  5085–5109, 2022.
  • Wang et al. (2023) Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N. A., Khashabi, D., and Hajishirzi, H. Self-instruct: Aligning language models with self-generated instructions. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  13484–13508, 2023.
  • Wei et al. (2021) Wei, J., Bosma, M., Zhao, V., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M., and Le, Q. V. Finetuned language models are zero-shot learners. In International Conference on Learning Representations, 2021.
  • Xu et al. (2024a) Xu, C., Sun, Q., Zheng, K., Geng, X., Zhao, P., Feng, J., Tao, C., Lin, Q., and Jiang, D. WizardLM: Empowering large pre-trained language models to follow complex instructions. In The Twelfth International Conference on Learning Representations, 2024a. URL https://openreview.net/forum?id=CfXh93NDgH.
  • Xu et al. (2024b) Xu, Z., Jiang, F., Niu, L., Deng, Y., Poovendran, R., Choi, Y., and Lin, B. Y. Magpie: Alignment data synthesis from scratch by prompting aligned llms with nothing. arXiv preprint arXiv:2406.08464, 2024b.
  • Xu et al. (2024c) Xu, Z., Jiang, F., Niu, L., Lin, B. Y., and Poovendran, R. Stronger models are not stronger teachers for instruction tuning. arXiv preprint arXiv:2411.07133, 2024c.
  • Yin et al. (2018) Yin, P., Deng, B., Chen, E., Vasilescu, B., and Neubig, G. Learning to mine aligned code and natural language pairs from stack overflow. In International Conference on Mining Software Repositories, MSR, pp.  476–486. ACM, 2018. doi: https://doi.org/10.1145/3196398.3196408.
  • Yue et al. (2023) Yue, X., Qu, X., Zhang, G., Fu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mammoth: Building math generalist models through hybrid instruction tuning. In The Twelfth International Conference on Learning Representations, 2023.
  • Yue et al. (2024) Yue, X., Zheng, T., Zhang, G., and Chen, W. MAmmoTH2: Scaling instructions from the web. In The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024. URL https://openreview.net/forum?id=yVu5dnPlqA.
  • Zhang et al. (2024) Zhang, X., Chen, Z. Z., Ye, X., Yang, X., Chen, L., Wang, W. Y., and Petzold, L. R. Unveiling the impact of coding data instruction fine-tuning on large language models reasoning. arXiv preprint arXiv:2405.20535, 2024.
  • Zhou et al. (2024) Zhou, C., Liu, P., Xu, P., Iyer, S., Sun, J., Mao, Y., Ma, X., Efrat, A., Yu, P., Yu, L., et al. Lima: Less is more for alignment. Advances in Neural Information Processing Systems, 36, 2024.

Appendix A Related Work

従来、人間が作成したデータでLMを訓練することが、下流タスクでのLMの性能を向上させるための事実上の標準と考えられていた(Mishra et al., 2022; Wei et al., 2021; Wang et al., 2022; Longpre et al., 2023)。しかし、LMの文脈内学習能力に基づき(Brown et al., 2020)、一連の研究により、LMが事後訓練データとして使用できる新しい事例を生成できることが示された(Wang et al., 2023; Honovich et al., 2022; Kim et al., 2023a)

それ以来、様々な研究が、より強力なLMをデータ生成器として使用し、高品質なデータを取得するための様々なデータ生成方法とプロンプトを提案してきた。例えば、Taori et al. (2023)Wang et al. (2023)と同じデータ生成方法を使用したが、GPT-3-Davinciの代わりにInstructGPTを使用し、T5の代わりにLlama-1を訓練した。Xu et al. (2024a)はChatGPTをデータ生成器として使用し、Evol-Instructと呼ばれる方法を提案した。これは、データ生成器に既存の問題をオリジナルよりも複雑にするようプロンプトを与える方法である。Mukherjee et al. (2023)はGPT-4を使用してデータを生成し、回答の導出方法に関する思考の連鎖の説明を追加することで元の応答を改善した。Xu et al. (2024b)はMagpieというデータ生成方法を提案した。これは、まず空のチャットテンプレートでLMにプロンプトを与えて指示を抽出し、その後、対応する応答を生成するよう反復的にプロンプトを与える方法である。

新しいデータ生成方法の開発は重要であるが、どのLMをデータ生成器として使用するかを選択することは、研究者と実務者の両方にとって同様に重要な問題である。我々の知る限り、本研究と同時期の研究であるXu et al. (2024c)が、既存のデータ生成方法を使用して様々なLMのデータ生成能力を測定する最初の試みであった。しかし、彼らの設定は我々の「応答生成」方法に限定されていたのに対し、我々は事例生成と品質向上の方法も検証した。

Appendix B Response Generation Seed Dataset Construction

AgoraBenchにおいて、我々は各ドメイン(指示追従、数学、コード)に対して個別にシードデータセットを準備する。これは、訓練中に発生する正または負の転移を防ぐためであり、それによって合成データの品質とLMのデータ生成能力に対するPGR結果の根拠付けが困難になるのを避けるためである。

我々は、品質向上設定における数学および指示追従ドメインにWebInstructデータ(Yue et al., 2024)を使用する。しかし、WebInstructデータは与えられたインスタンスが数学問題であるかどうかのラベルを提供していない。そのため、我々はGPT-4o-mini-2024-07-18に以下のプロンプトを用いて分類させた:

シードデータ構築のためのドメイン分類 以下の「指示」と「応答」からなる「インスタンス」が以下のいずれかに関連しているかを分類せよ: 1. 問題の解答を要求する、定理を証明する、または数学的概念について説明するなどの数学関連タスク。 2. その他のタスク 挨拶メッセージやコメントなしで、「1」または「2」のみで回答せよ。 # インスタンス: 指示: <input> 応答: <output> # 決定:

Appendix C Problem Solving Abilities of LMs evaluated as Data Generators

GPT-4o-2024-08-06、GPT-4o-mini-2024-07-18、Claude-3.5-Sonnet-2024-06-20、Llama-3.1-405B-Instruct、Llama-3.1-70B-Instruct、およびLlama-3.1-8B-Instructの評価結果を表7に示す。我々は付録Dに記載された設定を使用している。

Inference Hyper-parameter
Temperature 0.2 (math) & 0.0 (other domains)
Top_p 0.95
Max New Tokens 1024
Repetition Penalty 1.03
Training Hyper-parameter
Base Model meta-llama/Llama-3.1-8B
Torch dtype bfloat16
Epoch 5
Max Seq Length 4096
Learning Rate 1e-5
Train Batch Size 4
Gradient Accumulation 8
GPU H100 (80GB) x 4
Random Seed 42
Training Method Supervised Fine-tuning
表6: 推論に使用したハイパーパラメータ。

Appendix D Details for Training and Evaluating Student Models

学生モデルの訓練に使用したハイパーパラメータと、学生モデルおよびデータ生成器として使用されたLMの評価に使用したハイパーパラメータを表6に示す。

MBPPとHumanEvalの評価には、Evalplus ライブラリを使用する(Liu et al., 2023a)。AlpacaEvalとArenaHardの評価には、それぞれ公式ライブラリを使用する(Dubois et al., 2024; Li et al., 2024)。GSM8KとMATHについては、huggingfaceで提供されているデータセットを使用し、我々の手動スクリプトを用いる。すべての評価スクリプトは我々のリポジトリで公開されている。

Appendix E Intrinsic Evaluation of AgoraBench

内在的評価の結果を表8に示す。

Appendix F AgoraBench Meta-prompts

紙面の制約により、メタプロンプトは我々のリポジトリおよび以下のリンクに掲載している。

Appendix G Prompt for Intrinsic Evaluation

以下のページでは、GPT-4oとPrometheus-2-8x7Bを用いて応答の質と指示の難しさを評価するために使用したプロンプト、および各ドメイン(指示遵守、数学、コード)に使用したスコアルーブリックを列挙する。

応答の質と指示の難しさの評価のためのプロンプト ###タスクの説明: 評価すべき指示(その中に入力が含まれている場合がある)、評価対象の応答、および評価基準を表すスコアルーブリックが与えられる。 1. 与えられたスコアルーブリックに厳密に基づいて応答の質を評価する詳細なフィードバックを記述せよ。一般的な評価は行わないこと。 2. フィードバックを記述した後、1から5までの整数のスコアを記述せよ。スコアルーブリックを参照すべきである。 3. 出力形式は以下のようにすべきである: "フィードバック: (基準に対するフィードバックを記述) [結果] (1から5までの整数)" 4. その他の冒頭、結びの言葉、説明は生成しないこと。 ###評価すべき指示: {instruction} ###評価対象の応答: {response} ###スコアルーブリック: {score_rubric} ###フィードバック:
数学的回答の質を評価するルーブリック 解答は数学的な正確さ、論理性、明確さ、精密さを示しているか? スコア1の説明: 解答が不正確または数学的に欠陥があり、推論、計算、または論理に重大な誤りがあり、答えが使用不可能である。 スコア2の説明: 解答には関連性のある、または部分的に正しい情報が含まれているが、結果に大きな影響を与える計算や推論に重大な誤りがある。 スコア3の説明: 解答はほぼ正確だが、推論に軽微な誤りや欠落がある可能性がある。全体的な構造とアプローチは適切だが、一部の計算や論理に改善の余地がある。 スコア4の説明: 解答は正確で、論理的で明確だが、完璧な解答になるためにはわずかな改善や微調整の余地がある可能性がある。 スコア5の説明: 解答は優れており、完全に正確で、高度な数学的精密さ、明確さ、創造性を示し、よく説明された論理を持ち、誤りがない。
指示に従う応答の品質評価ルーブリック 応答は、有用性、関連性、正確性、深さ、創造性、詳細さなど、幅広い要因を考慮しているか? スコア1の説明: 応答は全く役に立たないか、表面的には役立つように見えるが、実際には不正確な情報、素朴な誤算、または実行不可能なコードを含むなど、実際には誤っている。 スコア2の説明: 応答には関連性のある、または有用な情報が含まれているが、事実性、正確性、関連性の面で重大な欠陥もある。 スコア3の説明: 応答はほぼ正確であるが、事実性、正確性、関連性に関して軽微な欠陥が依然として存在する。全体的には許容できる応答である。 スコア4の説明: 応答は正確で、関連性があり、有用であるが、専門家が評価すると若干の改善の余地がある。 スコア5の説明: 応答は優れている。完全に事実に基づき、正確で、関連性があり、有用であり、高度な深さと創造性を示している。
コード応答品質スコアルーブリック コードソリューションはどの程度効果的、効率的、そして論理的に健全であるか、パフォーマンス、実行可能性、正確性に焦点を当てて評価する。 スコア1の説明: コードには基本的な論理またはシンタックスエラーが含まれており、不正確または実行不可能である。意図したタスクを完了できないか、完全に不正確な出力を生成する。 スコア2の説明: コードは部分的に機能するが、パフォーマンスや正確性に大きな影響を与える重大な論理エラーまたは非効率性が含まれている。実行される可能性はあるが、不正確または不完全な結果を生成する。 スコア3の説明: コードはほぼ正確で実行可能であるが、軽微な論理的問題、非効率性、またはデータ構造やアルゴリズムの最適でない使用が存在する可能性がある。ソリューションは意図通りに機能するが、改善によってより効率的または堅牢になる可能性がある。 スコア4の説明: コードは完全に正確で、機能的で、合理的に効率的である。意図したタスクを完了し、パフォーマンスと論理的健全性のバランスを取っている。軽微な最適化によってさらにパフォーマンスを向上させる余地がある。 スコア5の説明: コードは完全に正確で、最適に効率的で、論理的に堅牢であり、タスクに対して可能な限り最高のパフォーマンスを提供する。エラーなく完璧に実行され、重要な改善の余地はほとんどない。
指示遵守の指示難易度スコアルーブリック 与えられた指示を完璧に回答するためにはどの程度複雑で困難であるか? スコア1の説明: 指示は事実に基づく知識のみを必要とし、推論や批判的思考を必要としない。単純な一段階の回答で十分である。 スコア2の説明: 指示には、複数の単純なアイデアを含む概念の説明、単純な問題の解決、または少数の論理的ステップを含む回答の提供など、ある程度の推論が必要である。ただし、依然として本質的に単純である。 スコア3の説明: 指示には相当量の推論と複数の関連概念の統合が必要である。正確に回答するには多段階のプロセスが必要であり、中級レベルの知識や分析的思考が必要となる場合がある。 スコア4の説明: 指示には高度な推論が必要であり、複雑な概念の深い理解または実質的な問題解決能力が求められる。回答するには、複数の相互関連するアイデアやステップを慎重に操作する必要があり、しばしば専門知識や洗練された分析スキルを必要とする。 スコア5の説明: 指示は非常に困難であり、高度な推論または新規の問題解決能力を必要とする。広範な概念理解、抽象化、そして潜在的に革新的な思考を必要とし、正確かつ完全な回答に到達するには相当な努力が必要である。
数学指導難易度スコアルーブリック 数学の問題を解くのにどの程度複雑で難しいか? スコア1の説明: 問題は単純な演算や単一の基本的な概念の直接的な適用のみを必要とする。最小限の推論が必要であり、解決策は既知のルールや公式を適用することですぐに導き出される。 スコア2の説明: 問題は基本的な推論を必要とし、馴染みのある公式や概念を若干の変更を加えて適用することを含む。直接的な多段階のプロセスを含む場合があるが、各ステップは明確で一般的に使用される方法に依存している。 スコア3の説明: 問題は中程度の推論を必要とし、意味のある方法で相互作用する複数の概念を組み合わせる。解決には複数のステップが含まれ、論理的な順序付けや一定の抽象化が必要な場合があるが、しっかりとした基礎的理解があれば取り組みやすいアプローチである。 スコア4の説明: 問題は高度な推論を要求し、慎重な調整を必要とする複数の相互依存的な概念を含む。解決のステップはあまり明白ではなく、批判的思考や複数の解決経路の中から選択することが必要となる場合がある。問題を解くには、より抽象的な推論や概念の創造的な適用が含まれる。 スコア5の説明: 問題は非常に複雑で、洗練された推論と問題解決スキルを要求する。新規の概念の組み合わせ、複雑な論理的連鎖、または革新的なアプローチを含む場合がある。このレベルは通常、かなりの抽象化、非従来的な方法の探索、数学的ツールを適応させる柔軟性を必要とする。
コード指示難易度スコアルーブリック コーディング問題を解決するのにどの程度複雑で難しいか? スコア1の説明:問題は単純な機能や直接的な操作の実装を含む。最小限のロジックを必要とし、straightforwardなアプローチで複雑な意思決定は不要である。 スコア2の説明:問題はループや条件文などの基本的な制御フローを必要とする。ロジックは明確で順序立っており、コードの異なる部分間の相互作用は最小限である。 スコア3の説明:問題は中級レベルのロジックを含み、複数のプログラミング構造を組み合わせ、一貫した構造を必要とする。解決には基本的なデータ操作を伴う一連のステップの処理が必要だが、馴染みのある管理可能なアプローチに従う。 スコア4の説明:問題は高度な推論と複雑なデータ構造やアルゴリズムの使用を要求する。複数のコンポーネントの管理や効率性の最適化など、非自明な相互作用を含む。解決には重要なアルゴリズム的思考と構造化された問題分解が必要である。 スコア5の説明:問題は非常に複雑で、洗練されたアルゴリズム設計、効率的なデータ処理、高度な技術を必要とする。革新的なアプローチを要求し、慎重な最適化が必要な複雑なコンポーネント間の相互作用と制約がある。解決には通常、深い問題解決スキルとプログラミングパラダイム全体にわたる適応性が必要である。
表7: ベンチマークスコアで測定された言語モデルの問題解決能力。
Data Generator Problem-solving ability
GSM8K MATH MBPP Human Alpaca Arena Average
Eval Eval 2.0 Hard
GPT-4o 96.1 76.6 86.2 91.5 57.5 77.9 80.9
GPT-4o-mini 93.2 70.2 85.7 88.4 50.7 64.2 75.4
Claude-3.5-Sonnet 96.4 71.1 89.2 92.0 52.4 82.0 80.5
Llama-3.1-405B 96.8 73.8 84.5 89.0 39.3 66.8 75.0
Llama-3.1-70B 95.1 68.0 84.2 80.5 38.1 51.6 69.6
Llama-3.1-8B 78.9 34.6 68.5 69.5 24.2 25.5 50.2
表8: AgoraBenchの内在的評価結果。
Data Generator Instance Generation Response Generation Quality Enhancement
Math Code Inst. Follow Avg Math Code Inst. Follow Avg Math Code Inst. Follow Avg
Instruction Difficulty (LLM-as-a-Judge; GPT-4o Score)
GPT-4o (2024-08-06) 2.92 3.48 3.06 3.16 2.27 2.21 1.41 1.97 2.44 1.51 1.79 1.91
GPT-4o-mini (2024-07-18) 2.38 3.42 2.89 2.90 2.27 2.21 1.41 1.97 2.47 1.38 1.81 1.89
Claude-3.5-Sonnet (2024-06-20) 3.24 4.03 3.54 3.60 2.27 2.21 1.41 1.97 2.47 1.52 1.83 1.94
Llama-3.1-405B-Instruct 2.74 3.50 2.87 3.04 2.27 2.21 1.41 1.97 2.45 1.47 1.85 1.92
Llama-3.1-70B-Instruct 2.87 3.45 2.96 3.09 2.27 2.21 1.41 1.97 2.48 1.49 1.87 1.95
Llama-3.1-8B-Instruct 3.00 3.52 3.08 3.20 2.27 2.21 1.41 1.97 2.43 1.49 1.83 1.92
Instruction Difficulty (LLM-as-a-Judge; Prometheus-2-8x7B Score)
GPT-4o (2024-08-06) 3.73 3.57 3.95 3.75 3.00 2.76 2.24 2.67 3.37 2.14 2.50 2.67
GPT-4o-mini (2024-07-18) 3.44 3.38 3.94 3.59 3.00 2.76 2.24 2.67 3.36 1.98 2.53 2.63
Claude-3.5-Sonnet (2024-06-20) 4.11 4.51 4.45 4.36 3.00 2.76 2.24 2.67 3.38 2.24 2.61 2.74
Llama-3.1-405B-Instruct 3.63 3.27 3.84 3.58 3.00 2.76 2.24 2.67 3.35 2.11 2.64 2.70
Llama-3.1-70B-Instruct 3.72 3.43 3.94 3.69 3.00 2.76 2.24 2.67 3.32 2.21 2.76 2.76
Llama-3.1-8B-Instruct 3.86 3.48 3.99 3.78 3.00 2.76 2.24 2.67 3.30 2.09 2.67 2.68
Instruction Difficulty (Perplexity)
GPT-4o (2024-08-06) 2.13 1.28 3.44 2.28 2.26 4.23 3.41 3.30 2.03 3.60 3.83 3.15
GPT-4o-mini (2024-07-18) 2.05 1.31 3.32 2.23 2.28 2.12 3.20 2.53 2.08 5.50 3.97 3.85
Claude-3.5-Sonnet (2024-06-20) 2.04 1.34 3.18 2.19 2.16 3.48 3.63 3.09 1.99 2.46 3.04 2.50
Llama-3.1-405B-Instruct 1.96 1.29 2.19 1.81 1.90 1.91 2.42 2.08 2.10 3.10 3.90 3.03
Llama-3.1-70B-Instruct 1.78 1.27 2.19 1.74 1.86 1.72 2.52 2.03 2.12 2.84 3.98 2.98
Llama-3.1-8B-Instruct 1.83 1.33 2.08 1.74 1.98 1.81 2.48 2.09 2.06 3.17 3.98 3.07
Response Quality (LLM-as-a-Judge; GPT-4o Score)
GPT-4o (2024-08-06) 3.72 3.95 4.42 4.03 3.99 3.79 4.44 4.07 3.62