JaLMS
最新の AI 研究を日本語で解読

AceMath: Advancing Frontier Math Reasoning with Post-Training
and Reward Modeling

Zihan Liu    Yang Chen    Mohammad Shoeybi    Bryan Catanzaro    Wei Ping
Abstract

本稿では、複雑な数学問題の解決に優れた最先端の数学モデル群であるAceMathと、生成された解答を評価し正解を確実に識別できる高効率な報酬モデルを紹介する。 指示調整された数学モデルを開発するために、我々は教師あり微調整(SFT)プロセスを提案する。このプロセスでは、まず一般的な領域で競争力のある性能を達成し、その後、慎重に選定されたプロンプトと合成生成された応答を用いて数学領域に特化した微調整を行う。 結果として得られたモデルAceMath-72B-Instructは、Qwen2.5-Math-72B-Instruct、GPT-4o、およびClaude-3.5 Sonnetを大きく上回る性能を示す。 数学に特化した報酬モデルを開発するために、我々はまずAceMath-RewardBenchを構築する。これは、多様な問題と難易度にわたって数学報酬モデルを評価するための包括的かつ堅牢なベンチマークである。 その後、我々の数学報酬モデルを構築するための体系的なアプローチを提示する。結果として得られたモデルAceMath-72B-RMは、最先端の報酬モデルを一貫して上回る性能を示す。 さらに、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、数学的推論ベンチマーク全体で最高の平均rm@8スコアを達成する。

1 Introduction

Refer to caption
図1: 数学的推論ベンチマークにおけるAceMathと主要なオープンウェイトおよび独自のLLMの比較。さらに、我々の報酬モデルAceMath-72B-RMを用いたrm@8精度(8回中最良)を報告し、Qwen2.5-Mathの公式報告数値を使用している。

過去1年間、オープンな大規模言語モデル(LLM)コミュニティは、LLMの主要な能力を向上させる上で顕著な進歩を遂げてきた。これには、複数ターンの会話(Chiang et al., 2023; Dubey et al., 2024)、コーディング(Guo et al., 2024; Hui et al., 2024)、マルチモーダル機能(Dai et al., 2024; Chen et al., 2024)、検索拡張生成(RAG)(Liu et al., 2024c)、そして数学的推論(Azerbayev et al., 2023; Shao et al., 2024; Mistral, 2024; Yang et al., 2024b)が含まれる。 これらの能力の中で、数学は知性の基本的な側面として認識されている。その客観的、一貫性のある、検証可能な性質により、信頼性の高いベンチマークとして機能し得る。結果として、数学問題の解決は、複雑で数値的かつ多段階の論理的推論を必要とする困難なタスクに取り組むLLMの能力を評価するための重要なテストベッドとして広く認識されている(e.g., Cobbe et al., 2021; Hendrycks et al., 2021a; Lightman et al., 2023)

先行研究により、数学に特化したLLMが、困難な数学的ベンチマークにおいて汎用LLMを大幅に上回ることが説得力をもって示されている(Azerbayev et al., 2023; Shao et al., 2024; Mistral, 2024; Yang et al., 2024b)。 これらの数学特化モデル(対応する報酬モデル、別名検証器を含む)は、数学および科学コミュニティにとって価値があるだけでなく(e.g., Tao, 2023)、データ収集に関する貴重な洞察を提供し、合成データ生成ツールとしても機能し、将来の汎用LLMの反復的改善に貢献している。

数学に特化したLLMの改善された数学的推論能力は、一般的に継続的事前学習と事後学習の両方を通じて獲得される: i) 継続的事前学習段階では、モデルは汎用ベースの事前学習済みLLM(例:Llama-3.1-70B (Dubey et al., 2024))で初期化され、数学的コーパスの大規模なコレクションで継続的に学習される。これらのコーパスは、Common Crawl (Shao et al., 2024)、ArXiv論文 (Azerbayev et al., 2023)、および合成的に生成されたデータセット (Yang et al., 2024b; Akter et al., 2024)から得られた数千億のトークンで構成されることが多い。この段階では、コーパス内のすべてのトークンに対して損失が計算される。 ii) 事後学習段階では、継続的に事前学習された数学ベースLLM(例:Qwen2.5-Math-72B (Yang et al., 2024b))が、数学的プロンプト-応答ペアの大規模データセットを用いて微調整される。この段階では、応答トークンに対してのみ損失が計算され、モデルがプロンプトや問題記述に対して正確な回答を生成する能力を洗練させることができる。

本稿では、我々はオープンウェイトのベースLLMと数学ベースLLMを基に、事後学習と報酬モデリングによって数学的推論の限界を押し広げる。 我々は、数学に特化したモデルを構築するための最先端の教師あり微調整(SFT)と報酬モデリング(RM)プロセスを確立し、同時に我々の包括的な研究から得られた重要な洞察を共有する。

具体的に、我々は以下の貢献を行う:

  1. 1.

    我々は、まず一般的な領域(多分野にわたるトピック、コーディング、数学を含む)で競争力のある性能を達成するように設計されたSFTプロセスを導入する。 これを基盤として、一般的なSFTモデルは、綿密に選定されたプロンプトと合成的に生成された応答を用いて、数学領域でさらに微調整される。 高品質な訓練データを活用することで、結果として得られたモデルであるAceMath-7B-Instructは、様々な数学的推論ベンチマークにおいて、以前の最高クラスのQwen2.5-Math-7B-Instructを大きく上回る性能を示し(pass@1: 67.2 対 62.9)(詳細な結果は図1参照)、10×\times×倍大きいQwen2.5-Math-72B-Instructの性能に迫っている(67.2 対 68.2)。 特筆すべきは、我々のAceMath-72B-Instructが最先端のQwen2.5-Math-72B-Instructを大きく上回っていることである(71.8 対 68.2)。

  2. 2.

    我々は、数学に特化した報酬モデルを構築するための訓練技術について体系的な調査を行った。この調査では、正負のペアの構築、訓練目的、特定のLLMからのスタイル的バイアスの排除などの重要な側面に焦点を当てた。 この探索から得られた知見を活用し、我々のAceMath-72B-RMは、Qwen2.5-Math-RM-72BやSkywork-o1-Open-PRM-Qwen-2.5-7B (Skywork-o1, 2024)を含む最先端の報酬モデルを、数学領域で一貫して上回る性能を示している。 さらに、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、7つの数学的推論ベンチマークにわたる平均rm@8スコアで最高値を達成し(図1参照)、この分野での性能の新基準を設定している。

  3. 3.

    我々は、AceMath-InstructとAceMath-RMのモデルの重みを、それらの開発の全段階で使用された完全な訓練データとともにオープンソース化する予定である。 また、数学報酬モデルを評価するための包括的なベンチマークであるAceMath-RewardBenchもリリースする。これは、多様なデータセット、様々な難易度レベル、応答スタイルの変動に対する堅牢性を提供する。

本稿の残りの部分は以下のように構成される。§2では、関連研究を紹介する。 §3では、訓練データの選定の詳細を含むSFTプロセスを紹介する。 §4では、我々の報酬モデルの訓練について説明する。 §5で本稿を結論づける。

2 Related Work

2.1 Continued Pre-training on Math Corpus

多くの研究が、大規模言語モデル(LLM)の数学能力を向上させるために、大規模な数学データを事前学習に統合することを調査してきた(Shen et al., 2021; Wang et al., 2023; Zhang et al., 2024a; Ying et al., 2024; Akter et al., 2024; Hui et al., 2024)。 さらに、一部の研究は、汎用LLMの事前学習を、数学関連のウェブテキスト、百科事典、試験問題、合成数学データなどから得られる広範な数学コーパスで継続することにより、数学に特化したLLMの開発に焦点を当てている(Shao et al., 2024; Yang et al., 2024b)。これらの研究は、この追加の数学に焦点を当てた事前学習が、モデルの数学問題解決能力を大幅に向上させ、事前学習されたベースモデルだけでなく、事後学習後のインストラクトモデルにも恩恵をもたらすことを示している。

2.2 Supervised Fine-Tuning

事前学習済みLLMの多様な能力を向上させるため、指示追従(Chiang et al., 2023; The-Vicuna-Team, 2023; Lian et al., 2023; Mukherjee et al., 2023; Teknium, 2023; Peng et al., 2023; Yuan et al., 2024)、コーディング(Glaive-AI, 2023; Wei et al., 2024; Luo et al., 2023)、数学的問題解決(Yue et al., 2024a, b; Yu et al., 2023; Mitra et al., 2024; Li et al., 2024b)などの能力を対象とした、数多くの教師あり微調整(SFT)データセットが開発されている。人手によるアノテーションデータの高コストを考慮し、プロンプトと応答の両方を含む合成データ生成が、SFTデータ構築の重要な要素となっている(Yu et al., 2023; Xu et al., 2024; Luo et al., 2023; Li et al., 2024a; Toshniwal et al., 2024)

さらに進んで、数学分野におけるLLMの性能を向上させるため、数学に特化した事前学習モデルをバックボーンとし、数学に特化した大量の合成後学習データを活用した数学指示モデルが開発されている(Shao et al., 2024; Toshniwal et al., 2024; Yang et al., 2024b)。例えば、OpenMathInstruct(Toshniwal et al., 2024)は、Llama3.1ベースモデルに対して大規模な合成データを用いた数学特化型SFTを行うことで、対応するLlama3.1指示モデルを数学ベンチマークで大きく上回ることを示している。さらに、Qwen2.5-Math(Yang et al., 2024b)は、7Bの数学指示モデルがGPT-4oに匹敵する数学的推論能力を達成できることを実証している。

2.3 Reward Modeling

数学的検証のための報酬モデルの訓練には、しばしば正解と不正解を区別する二値分類のような判別的アプローチが用いられる(Cobbe et al., 2021)。あるいは、Bradley-Terry損失(Bradley & Terry, 1952; Ouyang et al., 2022)や回帰損失を利用して解答をランク付けする選好ベースの手法が採用され、HelpSteerのようなモデルで実証されている(Wang et al., 2024e, d)。 対照的に、LLM-as-a-judge(Zheng et al., 2023)のような生成的報酬モデルは、事前に定義された評価基準と採点テンプレートを用いてLLMに検証者として行動するよう促す(Bai et al., 2022)。GenRM(Zhang et al., 2024c)はChain-of-Thought推論(Wei et al., 2022)を活用し、Critic-RM(Yu et al., 2024)は報酬を予測する前に批評を用いる。 我々の結果報酬モデルに関する研究は、主に訓練のために多様なモデル応答をサンプリングすることによって、スタイルバイアスに対する頑健性に焦点を当てている(Liu et al., 2024b)。 結果ベースの報酬モデルを超えて、プロセス報酬モデル(PRMs)はモデル応答のステップバイステップの評価を提供する(Uesato et al., 2022; Lightman et al., 2023)。例えば、Math-Shepherd(Wang et al., 2024b)は訓練のための大規模なプロセス監督データを構築する自動サンプリング手法を導入し、その後、PAV(Setlur et al., 2024)、OmegaPRM(Luo et al., 2024)、ER-PRM(Zhang et al., 2024b)、AutoPSV(Lu et al., 2024)、ProcessBench(Zheng et al., 2024)を含むステップワイズ監督ラベリングのさらなる発展が続いている(Dong et al., 2024)

3 Supervised Fine-tuning

3.1 Overview

数学に焦点を当てた教師あり微調整(SFT)を効果的に開始するためには、強力な初期化ポイントを提供することが極めて重要である。 先行研究(Shao et al., 2024; Yang et al., 2024b)では、大規模な数学コーパスを用いてLLMの継続的な事前学習を行うことで、その後の数学に特化した事後学習にとってより効果的な初期化が提供されることが示されている。 我々は、これをさらに進めて、事前学習済みLLMに対して一般的なSFTを実施することが、その後の数学に特化したSFTにとってさらに優れた初期化となり得るかどうかを探究する。 この考えは、一般的なタスクに対してSFTを実施することで、モデルが指示に従う能力や推論能力(例えば、知識関連)を強化し、この基盤が数学に焦点を当てたSFTデータから数学問題解決スキルを獲得しやすくするというものである。 一般的なSFTデータの収集の詳細については、§3.2.1で述べる。

次のステップは、数学に特化したSFTデータの構築である。統一された、段階的で正確な解答を伴う多様な数学プロンプトのセットを開発することが極めて重要である。数学SFTデータの収集の詳細については、§3.2.2で述べる。

2はSFTデータの概要を示している。一般的なSFTデータと数学SFTデータをトレーニングにどのように活用するかの詳細については、§3.3で述べる。

3.2 Data Curation

3.2.1 General SFT Data

我々の目標は、後続の数学特化SFTの強力な出発点となる一般的なSFTモデルを構築することである。この一般的なSFTモデルは、指示に従うことに優れ、数学やコーディングに関連するものを含む幅広い質問に答えられるべきである。

Prompt Construction

この目標を達成するために、我々は多様なオープンソースデータセットからプロンプトを収集し、以下のように分類した:

  • 一般ドメイン:ShareGPT (Chiang et al., 2023; The-Vicuna-Team, 2023)、SlimOrca (Lian et al., 2023; Mukherjee et al., 2023)、EvolInstruct (Xu et al., 2024)、GPTeacher (Teknium, 2023)、AlpacaGPT4 (Peng et al., 2023)、およびUltraInteract (Yuan et al., 2024)

  • コーディングドメイン:Magicoder (Wei et al., 2024)、WizardCoder (Luo et al., 2023)、GlaiveCodeAssistant (Glaive-AI, 2023)、およびCodeSFT (Adler et al., 2024)

  • 数学ドメイン:NuminaMath (Li et al., 2024b)、OrcaMathWordProblems (Mitra et al., 2024)、MathInstruct (Yue et al., 2024a)、およびMetaMathQA (Yu et al., 2023)、ならびに我々の合成データ(詳細は§3.2.2を参照)。

異なるデータソースにプロンプトの重複がある可能性があるため、我々はデータの重複排除を行い、小文字に変換した際に同一のプロンプトを除去する。 重複排除後、プロンプトの多様性を保持するために、プロンプトセットをフィルタリングせずに保持する。

Response Construction

プロンプトを収集した後、我々の目標は、モデルがより効果的に学習できるように、一貫したフォーマットで高品質な応答を構築することである。 したがって、異なるキュレーターによって収集されたり、異なるモデルによって生成されたりしたために品質が不十分で一貫性のないフォーマットである可能性があるため、これらのプロンプトに対する元のオープンソースの応答を使用することは避ける。 我々は、コーディングおよび一般ドメインの収集されたプロンプトに対する応答を生成するためにGPT-4o-mini(2024-0718)を使用する。 GPT-4o-miniは、さまざまなタスクと指示にわたって強力な性能を示し、またコンパクトなサイズであるため、大量の生成された応答を時間効率よくかつコスト効率よく生成できることから選択された。 数学SFTプロンプトの応答構築の詳細については§3.2.2に記載する。

我々は、各プロンプトに対して貪欲デコーディングを用いて単一の応答を生成し、最終的に約120万のコーディングSFTサンプル(6.7億トークン)と70万のサンプル(5.5億トークン)を一般ドメインで蓄積する。 そして、一般SFTのために数学SFTデータ(§3.2.2で説明)から約120万サンプル(9.5億トークン)を取得する。

3.2.2 Math SFT Data

目標は、統一された、段階的で正確な解答を伴う多様な数学プロンプトのセットを構築することである。

Initial Prompts

我々はまず、一般SFTデータから数学プロンプトを取得し、具体的には以下のオープンソースデータセットから抽出する:NuminaMath (Li et al., 2024b)、OrcaMathWordProblems (Mitra et al., 2024)、MathInstruct (Yue et al., 2024a)、およびMetaMathQA (Yu et al., 2023)。これらのプロンプトは、小学校、高校、大学レベル、およびオリンピックレベルの数学の課題を含む幅広い数学問題をカバーしている。その後、以前と同様にデータの重複排除を行い、重複するプロンプトを削除する。最終的に、130万以上の初期プロンプトを収集する。

Synthetic Prompt Generation

さらに、我々は数学プロンプトコレクションの多様性を豊かにするために、追加の合成プロンプトを生成する。 このプロセスには2つの重要なステップがある:1)多様なシードプロンプトを活用して、強力なinstructモデルに全く新しい、潜在的により難しいまたは珍しいプロンプトを生成させる、2)生成されたプロンプトが解決可能であることを確認する。解決不可能なプロンプトは不正確な回答につながり、トレーニングに使用した場合にパフォーマンスを低下させる可能性があるためである。 したがって、我々はNuminaMathを様々な難易度の数学問題を幅広くカバーしているためシードプロンプトソースとして選択する。次に、Xu et al. (2024)にインスパイアされた2つの戦略を適用する:より珍しいプロンプトを生成するための幅広い進化と、より難しいプロンプトを生成するための深い進化である。合成プロンプトの生成には、GPT-4o-mini(2024-0718)を使用する。

低品質の合成プロンプトをフィルタリングすることが重要である。 特に、深い進化の一種である、既存のプロンプトに制約を追加して新しいプロンプトを生成する方法が、時として解決不可能または過度に難しい問題を生成することがあることを我々は発見した。これは結果として、トレーニングデータに不正確な回答が含まれることにつながり、最終的にモデルのパフォーマンスを低下させる可能性がある(§3.6.4のアブレーション研究を参照)。 その結果、我々はこのタイプのプロンプト拡張を除外する。さらに、300語を超える合成プロンプトをフィルタリングする。過度に長い数学関連のプロンプトは多くの場合、問題があるか解決不可能であるためである。最後に、トレーニングのためのより洗練されたデータセットを確保するために、50万をフィルタリングして合成数学プロンプトを約100万に絞り込む。結果として、我々は合計230万以上の数学プロンプト(130万の初期プロンプト + 100万の合成プロンプト)のコレクションを持つ。 合成プロンプト生成の詳細については付録Cに記載する。

Response Construction

我々は、様々な数学ベンチマークにおいて最先端の性能を示すQwen2.5-Math-72B-Instructを数学プロンプトへの応答生成に使用する。 プロンプトに「段階的に推論し、最終的な答えを\\boxed{}𝑏𝑜𝑥𝑒𝑑boxed\{\}italic_b italic_o italic_x italic_e italic_d { }内に記入してください。」という指示を追加することで、応答が明確で段階的なフォーマットで一貫したスタイルで提示されることを確保する。

我々は230万以上のプロンプトそれぞれに対して単一の応答を生成し、統一された構造(例えば、質問の要約で応答を開始し、最終的な答えを\\boxed𝑏𝑜𝑥𝑒𝑑boxed{}italic_b italic_o italic_x italic_e italic_d内に記入する)に従う応答(およびそれらのプロンプト)のみを選択することで、応答フォーマットの一貫性を確保する。 さらに、2,500語を超える応答は、過度に長い応答が多くの場合、冗長または不正確な解答、あるいは未完成の応答を示すため、そのプロンプトとともに除外する。 加えて、Qwen2.5-Math-72B-Instructは強力な能力を示すが、時折繰り返しの文字列(例えば、最大出力長に達するまで同じテキストを繰り返す)を生成することがある。我々はこのようなパターンを検出し、対応するプロンプトとともに削除する。 これらのケースはデータセットのごく一部を占めるに過ぎないが、最終的なパフォーマンスに悪影響を与える可能性があるため、キュレーションプロセス中に慎重にフィルタリングされる。 フィルタリング後、我々は合計約230万の数学SFTサンプル(18.3億トークン)を得る。そのうち約120万が一般SFTに使用される。

Qwen2.5-Math-72B-Instructは依然として不正確な解答を生成する可能性があり、これがモデルのトレーニングに悪影響を与える可能性がある。 これを緩和するために、我々はトレーニングのためのより高品質なデータセットを作成するために、正確な最終答えを持つサンプルの特定に焦点を当てる。

我々のアプローチは、異なるモデルによって生成された答えをクロスチェックし、一貫した結果を持つ解答を正確である可能性が高いものとして扱うことを含む。具体的には、我々は別の強力なモデルであるGPT-4o-mini(2024-0718)を活用して応答を生成する。GPT-4o-miniは数学においてQwen2.5-Math-72B-Instructと比較して比較的弱いため、プロンプ

3.3 Training Strategy

3.3.1 General SFT Strategy

一般的なタスクの中で、複雑なコーディングや数学の問題を解くことは特に難しく、多くの一般的な指示モデルはしばしばこれらに苦戦する。この問題に対処し、より効果的な一般SFTモデルを開発するために、我々は2段階の訓練アプローチを導入する。

ステージ1では、コードと数学のSFTタスク用に特別に選定された大規模なデータセットでモデルを訓練し、これらの分野での強固な基盤を提供する。ステージ2では、コード、数学、その他の一般的なSFTデータのバランスの取れた組み合わせを取り入れることで範囲を拡大し、モデルの能力を広げ、全体的なパフォーマンスを向上させる。

我々は、この2段階訓練をサポートするために構築された一般SFTデータ(約300万サンプル)を整理する。ステージ1では、コーディングと数学のサンプルの大部分が選択され、合計約200万のSFTサンプルとなる。ステージ2の訓練では、残りのコーディングと数学のSFTサンプル、ステージ1データのサブセット、および他のすべての一般SFTサンプルを使用し、合計約160万サンプルとなる。ステージ2の訓練で使用される数学SFTサンプルについては、§3.2.2で詳述したように、GPT-4o-miniとQwen2.5-Math-72B-Instructが提供する最終回答が一致するクロスチェックされた高品質データのみを選択する。この戦略により、ステージ2の訓練では、追加の多様で高品質なコーディングと数学のSFTサンプルを統合し、より堅牢なモデルを育成することができる。

Models HumanEval MBPP GSM8K MATH MMLU MMLU Pro Avg.
DeepSeek-Coder-7B-Instruct-v1.5 64.10 64.60 72.60 34.10 49.50 - -
DeepSeek-Coder-7B-Base + Two-Stage SFT (Ours) 78.05 73.54 82.56 55.62 54.65 33.28 62.95
Llama3.1-8B-Instruct 72.60 69.60 84.50 51.90 69.40 48.30 66.05
Llama3.1-8B-Base + Two-Stage SFT (Ours) 81.10 74.71 90.45 64.42 68.31 43.27 70.38
Qwen2.5-1.5B-Instruct 61.60 63.20 73.20 55.20 58.37 32.40 57.33
Qwen2.5-1.5B-Base + Two-Stage SFT (Ours) 73.17 65.76 80.44 60.34 58.17 33.78 61.94
Qwen2.5-7B-Instruct 84.80 79.20 91.60 75.50 74.51 56.30 76.99
Qwen2.5-7B-Base + Two-Stage SFT (Ours) 85.37 74.32 93.10 76.40 74.68 54.50 76.40
Qwen2.5-72B-Instruct 86.60 88.20 95.80 83.10 84.67 71.10 84.91
Qwen2.5-72B-Base + Two-Stage SFT (Ours) 89.63 83.66 96.36 84.50 83.88 66.10 84.02
表1: 我々の一般SFTモデルの結果。我々は提案する2段階訓練戦略を適用して、様々なベースモデルに対してSFTを実施した。これらの微調整されたモデルは、同じベースモデルに基づいて構築された対応する指示ベースラインと比較される。
Models HumanEval MBPP GSM8K MATH MMLU MMLU Pro Avg.
Llama3.1-8B-Base + Two-Stage SFT 81.10 74.71 90.45 64.42 68.31 43.27 70.38
Llama3.1-8B-Base + Single-Stage SFT w/ all general SFT data 78.66 69.26 87.79 56.80 67.62 42.64 67.13
Llama3.1-8B-Base + Single-Stage SFT w/ only stage-2 data 73.78 67.32 88.17 55.84 67.48 42.85 65.91
Qwen2.5-7B-Base + Two-Stage SFT 85.37 74.32 93.10 76.40 74.68 54.50 76.40
Qwen2.5-7B-Base + Single-Stage SFT w/ all general SFT data 83.54 75.49 91.96 75.04 73.96 53.36 75.56
Qwen2.5-7B-Base + Single-Stage SFT w/ only stage-2 data 83.54 73.15 92.27 75.12 74.26 53.06 75.23
表2: 2段階訓練戦略の有効性に関する我々の一般SFTモデルのアブレーション研究。

3.3.2 Math SFT Strategy

我々は、一般SFTデータで訓練されたベース(または数学ベース)モデルを数学SFTの出発点とする。多様で高品質な数学SFTデータを達成するために、NuminaMath (Li et al., 2024b)からのすべてのサンプル、我々の合成プロンプトからのサンプルのサブセット、およびGPT-4o-miniとQwen2.5-Math-72B-Instructの間でクロスチェックされた80万の数学SFTサンプル(§3.2.2で説明)をマージする。同一のプロンプトを持つ重複サンプルを削除し、結果として数学SFTのために合計160万サンプルとなる。我々は、この訓練ブレンドが、230万の数学SFTサンプルすべてを直接訓練に利用するよりも良い結果をもたらすことを発見した(このアブレーション研究は§3.6.3で見ることができる)。

Refer to caption
図2: 数学、コーディング、その他のカテゴリーの総SFTトークンの割合。

3.3.3 SFT Data Summary

2は、数学、コーディング、その他のカテゴリーにわたる総SFTトークンの分布の概要と、数学SFTサンプルの利用に関する詳細を提供している。 合計で、約230万の数学SFTサンプル(18.3億トークン)、120万のコーディングSFTサンプル(6.7億トークン)、その他のカテゴリーで70万サンプル(5.5億トークン)がある。数学SFTサンプルのうち、120万(9.5億トークン)が一般SFTに使用され、160万(12.9億トークン)が数学SFTに利用される。

3.3.4 Training Details

すべてのSFTモデルはAdamWオプティマイザ (Kingma, 2014; Loshchilov, 2017)を使用して訓練される。我々は一般SFTには5e-6の学習率を、数学SFTには3e-6の学習率を使用する。72Bモデルでは256に増加されるが、それ以外のすべてのモデルサイズで128のグローバルバッチサイズを使用する。一般SFTと数学SFTの両方で、最大シーケンス長4096で1エポックの訓練を実施する。

Models GSM8K MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
GPT-4o (2024-0806) 92.90 81.10 50.74 67.50 43.30 48.50 87.99 67.43
Claude-3.5 Sonnet (2024-1022) 96.40 75.90 48.16 64.94 37.93 48.47 85.06 65.27
Llama3.1-70B-Instruct 94.10 65.70 34.20 54.00 27.70 42.50 80.40 56.94
Llama3.1-405B-Instruct 96.80 73.80 54.04 62.08 34.81 49.25 83.10 64.84
OpenMath2-Llama3.1-8B 91.70 67.80 16.91

3.4 Benchmarks

3.4.1 General SFT Benchmarks

我々は、一般的なSFTモデルを広く使用されている多様なベンチマークで評価する。 これらのベンチマークは、HumanEval (Chen et al., 2021)やMBPP (Austin et al., 2021)などのコーディングタスク、GSM8K (Cobbe et al., 2021)やMATH (Hendrycks et al., 2021b)などの数学的推論、さらにMMLU (Hendrycks et al., 2020)やMMLU Pro (Wang et al., 2024c)などの一般知識領域で構成されている。我々は、MMLUとMMLU Proに対して標準的な5ショット評価を実施し、残りのベンチマークには0ショット評価を使用する。

3.4.2 Mathematical Benchmarks

我々は、英語の数学タスクを評価するためにQwen2.5-Math (Yang et al., 2024b)の評価設定に従う。 一般的に使用されるGSM8K (Cobbe et al., 2021)とMATH (Hendrycks et al., 2021b)ベンチマークに加えて、我々はMinerva Math (Lewkowycz et al., 2022)、GaoKao 2023 En (Liao et al., 2024)、Olympiad Bench (He et al., 2024)、College Math (Tang et al., 2024)、MMLU STEM (Hendrycks et al., 2020)を含むより広範な数学ベンチマークでもモデルを評価する。これらのベンチマークは、小学校の算数から大学レベルの高度な問題、オリンピックレベルの課題まで、幅広い数学的推論能力を包括的に評価する。

上記のデータセットに加えて、我々はさらにAMC 2023111https://huggingface.co/datasets/AI-MO/aimo-validation-amcとAIME 2024222https://huggingface.co/datasets/AI-MO/aimo-validation-aimeでモデルを評価する。これらのベンチマークは非常に難しい数学コンペティションのベンチマークであるが、サイズが非常に限られており、AMC 2023は40のテストサンプルのみ、AIME 2024は30のサンプルのみで構成されている。Yang et al. (2024b)に従い、我々はこれらのベンチマークを別個に評価し、結果を付録Aに示す。

我々は、MMLU STEMに対して5ショット評価を実施し、残りのベンチマークには0ショット評価を使用する。

なお、MathとGSM8K以外のすべてのベンチマークについて、我々はそれらから派生した訓練データセットや合成データセットを使用していない。これにより、これらのベンチマークにおける我々のモデルの評価がより信頼性が高く、妥当なものとなることを保証している。

3.5 Results of General SFT Models

3.5.1 Main Results

1に示すように、我々は提案する2段階訓練戦略を適用し、DeepSeekCoder-7B (Guo et al., 2024)、Llama3.1-8B (Dubey et al., 2024)、Qwen2.5-1.5B/7B/72B (Yang et al., 2024a)を含む様々なベースモデルに対してSFTを実施した。我々は、微調整された一般的なSFTモデルを、同じベースモデルに基づいて構築された対応する指示ベースラインと比較する。 我々は、DeepSeek-Coder-7B、Llama3.1-8B、Qwen2.5-1.5Bなど、異なるモデルにわたって我々の一般的なSFTが平均スコアで4%以上の大幅な改善をもたらすことを観察した。特に、DeepSeek-Coderの結果は、我々のSFTがコーディングと数学タスクにおいて約10%以上の平均スコア向上という特に顕著な改善を達成したことを示している。 Qwen2.5-7B-InstructやQwen2.5-72B-instructなどのより高度なモデルと比較すると、我々のSFTは同等の性能を発揮する。これらの発見は、我々が構築した一般的なSFTデータセットの有効性と強力な汎化能力を強調している。

3.5.2 Effectiveness of Two-Stage Training

2に示すように、我々は2段階訓練戦略の有効性を研究した。比較のために、異なるファミリーから2つのベースモデル(Qwen2.5とLlama3.1)を使用し、すべての一般的なSFTデータまたはステージ2のSFTデータのみを使用して単一段階の訓練を実施した。

我々は、2段階訓練が一貫して単一段階訓練を上回ることを観察した。 興味深いことに、比較的弱いベースモデル(例:Llama3.1-8B)では、より強力なモデル(例:Qwen2.5-7B)と比較して顕著な改善(平均スコアで3%以上)が見られた。これは、モデルの複雑なコーディングおよび数学タスクを処理する能力を向上させるために、訓練中に広範なコーディングおよび数学データを組み込むことの重要性を強調している。 我々は、Qwen2.5モデルがすでに事前訓練中に相当量の数学とコーディングのSFTデータを活用しているため、これらの分野に焦点を当てた追加のステージ1 SFTの効果が減少すると推測する。

Models GSM8K MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
バックボーン: Llama3.1-8B-Base
AceMath-Instruct 91.51 69.06 31.99 59.74 32.00 49.08 67.94 57.33
\triangleright Qwen2.5-Math-72B-Instructのみ 91.13 69.66 33.82 60.26 30.37 49.86 66.21 57.33
\triangleright GPT-4o-miniのみ 90.83 68.12 36.03 60.26 31.70 48.05 66.50 57.36
\triangleright 一般的SFTをスキップ 91.81 68.70 31.99 59.48 31.11 48.40 62.76 56.32
バックボーン: Qwen2.5-7B-Base
AceMath-Instruct 93.56 77.10 43.38 65.19 37.78 54.90 77.41 64.19
\triangleright Qwen2.5-Math-72B-Instructのみ 92.80 76.96 41.91 63.64 38.07 54.93 75.64 63.42
\triangleright GPT-4o-miniのみ 91.66 74.14 43.75 64.42

3.6 Results of AceMath-Instruct

3.6.1 Main Results

3において、我々はAceMath-Instructモデルを、Qwen2.5-Math-1.5B/7B/72B-Instruct (Yang et al., 2024b)、GPT-4o (OpenAI, 2024a)、Claude-3.5 Sonnet (Anthropic, 2024)を含むいくつかの強力なベースラインと、貪欲デコーディングにおいて比較している。具体的には、我々のAceMath-1.5B/7B/72B-InstructモデルはQwen2.5-Math-1.5B/7B/72B-baseモデルを基盤としており、これらはQwen2.5-Math-1.5B/7B/72B-Instructの基礎でもある。我々は、AceMath-1.5B、7B、72B-Instructが、対応するQwen2.5-Math-1.5B、7B、72B-Instructモデルと比較して、大幅に優れた性能を達成していることを見出した。我々の最良のモデルであるAceMath-72B-Instructは、以前の最先端モデルであるQwen2.5-Math-72B-Instructと比較して、平均で3.68の大幅な改善を達成している。これは、我々が構築した数学SFTデータの優れた品質と汎用性を強調している。

さらに、我々の7BモデルであるAceMath-7B-Instructは、Llama3.1-405B-Instruct、GPT-4o、Claude-3.5 Sonnetなどのいくつかの高度な指示モデルと比較して、優れたまたは同等の性能を示すことを見出した。そして、はるかに大規模なQwen2.5-Math-72B-Instructの性能に近づいており、平均スコアの差はわずかである(68.16対67.17)。

Refer to caption
図3: ベースモデルまたは数学ベースモデルをバックボーンとして使用することが、我々のAceMath-Instructモデルの性能に与える影響に関する研究。我々は、異なるモデルタイプとサイズにわたって、我々のモデルを対応する数学指示ベースラインと比較している。結果は、数学ベンチマークにおける貪欲デコーディングの平均スコアである。

3.6.2 Backbone Model: Base vs. Math-Base

3において、我々はベースモデル(例:Qwen2.5-7B-Base)または数学ベースモデル(例:Qwen2.5-Math-7B-Base)をバックボーンとして使用することが、我々のAceMath-Instructモデルの性能に与える影響を研究している。この研究は、ポストトレーニング後の数学問題解決の性能向上のために、大規模な数学コーパスでの継続的な事前学習(つまり、数学ベースモデルの構築)の重要性を理解するのに重要である。

DeepSeek-7Bの場合、「Ours (Base)」はDeepSeek-Coder-7B-Base (Guo et al., 2024)をバックボーンモデルとして使用し、「Ours (Math Base)」はDeepSeek-Math-7B-Base (Shao et al., 2024)をバックボーンモデルとして使用している。後者は、DeepSeek-Coder-7B-Baseの事前学習を大規模な数学コーパスを用いて継続したものである。数学指示ベースラインはDeepSeek-Math-7B-RL (Shao et al., 2024)であり、これはDeepSeek-Math-7B-Baseから開発されている。Qwen2.5-1.5/7B/72Bの場合、ベースモデルはQwen2.5-1.5/7B/72B-Baseであり、数学ベースモデルはQwen2.5-Math-1.5/7B/72B-Baseで、ベースラインはQwen2.5-Math-1.5/7B/72B-Instructである。

我々は、モデルサイズが大きくなるにつれて、ベースモデルをバックボーンとする我々のモデルの性能が、数学ベースをバックボーンとするモデルの性能に近づくことを見出した。具体的には、Qwen2.5-(Math)-72B-Baseを使用した場合、「Ours (Base)」と「Ours (Math Base)」の性能差は非常に小さくなる(71.84対71.13)。我々は、より大規模なモデルは本質的により優れた数学問題解決能力と汎化能力を持っており、これが継続的な事前学習の必要性を減少させると推測している。 この発見は異なるモデルファミリーにも及んでいる。さらに、1.5Bから7Bのサイズのモデルを比較すると、「Ours (Base)」と「Ours (Math Base)」の性能差は、Qwen2.5-1.5Bよりも7Bモデル(つまりDeepSeek-7BとQwen2.5-7B)の方が小さい。

さらに、Qwen2.5-1.5Bを除いて、「Ours (Base)」のすべてのモデルが、より強力な数学ベースモデルをバックボーンとして使用する対応する数学指示モデルを上回ることを観察した。これは、より小規模なモデル(例:1.5B)が数学問題解決能力を向上させるために、大規模な数学コーパスでの継続的な事前学習により依存していることをさらに示している(完全な結果は付録Bで見ることができる)。

3.6.3 Ablation Studies on Training Strategy

4において、我々はAceMath-Instructモデルのトレーニングのための様々なバックボーンモデルにわたるトレーニングデータと戦略に関するアブレーション研究を行っている。

まず、GPT-4o-miniの応答またはQwen2.5-Math-72B-Instructの応答のいずれかを個別に使用する効果を探る。我々の最高性能モデルが両方の応答を活用していることを考慮し、一般的な数学SFTデータを構築する際に1つのモデルのみに依存する影響を分析する。特筆すべきは、GPT-4o-miniの応答のみが利用可能な場合でも、Qwen2.5-7B-Baseをバックボーンモデルとして使用した場合、平均スコアの低下はわずか1%で強力な性能を達成している。 さらに、Llama3.1-8B-Baseをバックボーンとする場合、GPT-4o-mini、Qwen2.5-Math-72B-Instruct、またはそれらの組み合わせ(AceMath-Instruct)からの応答を使用しても、同等の結果が得られる。 これは、合成データを生成するために超強力な数学専門家モデルへの依存を最小限に抑える我々のデータ構築プロセスの堅牢性を示している。

次に、数学SFTのための数学特有のサンプルの有効性を分析する。これを研究するために、160万の数学SFTサンプル(詳細は§3.3.2参照)でトレーニングされたAceMath-Instructを、利用可能なすべての数学SFTサンプル(230万)を使用してトレーニングされたモデルや、クロスチェックされた高品質サンプル(80万)のみを使用してトレーニングされたモデルと比較する。単にデータ量を増やすことや、高品質サンプルのみを使用することでは、より良い結果は得られないことがわかった。代わりに、クロスチェックされた高品質データと、多様な数学問題を含む追加サンプルを組み合わせることで、優れた結果が得られる。

第三に、一般的なSFTを行ってから数学SFTに移行することの影響を研究する。これを探るために、一般的なSFTステップをスキップし、すべての数学特有のサンプルを使用して直接数学SFTを行う。我々は、数学ベースモデル(例:Qwen2.5-Math-72B-Base)をバックボーンとして使用する場合でも、一般的なSFTをスキップすると通常約1%の平均スコア低下が生じることを観察した。これらの結果は、数学SFTの前に一般的なSFTを行うことの有効性を強調している。

Models Average
AceMath-Instruct 64.19
   \triangleright Removing all synthetic data 62.53
   \triangleright Using extra low-quality synthetic data 62.95
表5: 合成データに関するアブレーション研究。すべての合成数学SFTデータを削除する効果と、追加の低品質合成数学SFTデータを組み込む効果を探る。AceMath-InstructのバックボーンはQwen2.5-7B-Baseである。結果は7つの数学ベンチマークの平均である。

3.6.4 Ablation Studies on Synthetic Data

5に示すように、我々は合成数学SFTデータが結果にどのように影響するかを研究している。AceMath-Instructを2つのシナリオと比較している:100万の合成データサンプルをすべて削除した場合と、トレーニングのために追加の50万の低品質合成データを含めた場合(例:長いプロンプトや制約を追加する深層進化の一種)である。合成数学SFTデータの詳細は§3.2.2で見ることができる。 両方のシナリオで結果の低下が観察され、合成データを生成するだけでなく、トレーニングのためにそれを慎重に選択することの重要性が強調されている。 適切な合成データを効果的に活用することが、最適な性能を達成するために不可欠であることが証明されている。

4 Reward Model Training

我々は、AceMath-Instructのための数学報酬モデルを訓練し、より正確な解答とより優れた推論過程を選択することを目指す。 様々な言語モデルに広く適用できるようにするため、我々は多様な訓練データセットを作成した。以下のセクションでは、我々の訓練方法、評価プロトコル、および実証的結果について詳述する。

4.1 Reward Training Data Synthesis

4.1.1 Initial Dataset Construction

我々は§3.2.2の数学SFTデータセット(350K)の一部を利用し、プロンプトとgpt-4o-mini (OpenAI, 2024b)によって生成された回答を参照ラベルとして使用する。 モデル生成の推論ステップの多様性と潜在的な異なる種類の推論ミスを捉えるために、我々は14のLLMのセットから各LLMにつき4つのモデル応答をサンプリングする。これには、Llama2-7b-chat (Touvron et al., 2023)、Llama3.1-8/70B-Instruct (Dubey et al., 2024)、DeepSeek-math-7b-instruct (Shao et al., 2024)、Mistral-7B/Mathstral-7B (Jiang et al., 2023)、Gemma-2/27b-it (Gemma et al., 2024)、およびQwen2/2.5-1.5/7/72B-Instruct (Yang et al., 2024b)が含まれる。 その後、Qwen-math評価ツールキットを使用して参照ラベルと比較することで、モデルの解答を正解または不正解としてアノテーションする。333https://github.com/QwenLM/Qwen2.5-Math/tree/main/evaluation このプロセスにより、各問題に対する正解および不正解の候補回答のプールが初期化され、これらを学習のためのペアとなる応答を作成するためのポジティブサンプルおよびネガティブサンプルとして扱う。

4.1.2 Response Scoring and Selection

数学的問題の回答は、多様な表現を含む幅広い形式を包含している(例えば、[\frac{1}{2}, 1/2, 0.5]や[1e-5, 1×\times×10^{-5}]など)。SymPyやlatex2sympy2を使用したヒューリスティックな数学評価ツールキットは、不可避的に偽陰性の候補(すなわち、正解が不正解としてアノテーションされる)を生じさせる可能性がある。ネガティブ候補におけるこのような例は、ノイズを導入し、モデルの学習に悪影響を及ぼす可能性がある。 したがって、すべての候補からランダムにサンプリングする代わりに、我々は候補をランク付けし、スコアソートされたサンプリング戦略を適用する。 具体的には、数学報酬モデルQwen2.5-Math-RM-72Bを使用して、各問題のポジティブおよびネガティブ候補をそのスコアに基づいてランク付けする。 その後、上位k𝑘kitalic_kのポジティブ候補と下位k𝑘kitalic_kのネガティブ候補からランダムにサンプリングを行う。k𝑘kitalic_kは予備実験に基づいて14に設定される。 すべての候補からのランダムサンプリングと比較して、表8のアブレーション研究は、スコアソートされたサンプリング戦略の利点を示している。 結論として、我々は各問題に対して合計6つの応答候補(ポジティブ+ネガティブ)をサンプリングし、ポジティブとネガティブの応答数のバランスを確保し、すべての応答が正解または不正解である問題をフィルタリングする。

4.1.3 Addressing Stylistic Biases

LLMは、ゼロショット設定や少数のショット例でプロンプトを与えられた場合、異なるスタイルの思考連鎖推論パスを生成することができる (Wei et al., 2022)。我々は、MMLU (Hendrycks et al., 2021a)などのデータセットにおいて、モデルが指示に提供された単純な5ショットの例に従うため、モデル出力においてかなり短く単純な推論パスが観察されることに気づいた。 このような出力スタイルに対する報酬モデルのパフォーマンスを向上させるために、我々は少数ショットプロンプティングアプローチを使用して、2,000の多肢選択問題に対して単純で短い推論パスを生成する学習データを作成する。 さらに、我々の最終目標はAceMath-Instructモデルファミリーのための報酬モデルを開発することであるため、30,000問題のセットをサンプリングし、AceMath-(1.5/7/72B)-Instructチェックポイントを使用して応答を生成し、学習のためのポジティブおよびネガティブペアを作成する。結論として、我々の最終的な学習データセットは356Kの問題で構成され、各問題には合計6つの応答(k𝑘kitalic_kポジティブと6k6𝑘6-k6 - italic_kネガティブ)が対応付けられている。

Model GSM8K MATH500 Minerva Math GaoKao 2023 En Olympiad Bench College Math MMLU STEM Avg.
majority@8 96.22 83.11 41.20 68.21 42.69 45.01 78.21 64.95
Internlm2-7b-reward 95.26 78.96 36.25 67.51 40.49 43.88 75.42 62.54
Internlm2-20b-reward 95.10 76.53 37.69 66.63 40.12 42.57 70.60 61.32
Skywork-Reward-Llama-3.1-8B-v0.2 95.64 74.16 39.11 67.16 39.10 44.58 76.52 62.32
Skywork-Reward-Gemma-2-27B-v0.2 95.94 74.90 39.37 66.96 39.07 45.46 78.20 62.84
Skywork-o1-Open-PRM-Qwen-2.5-7B 96.92 86.64 41.00 72.34 46.50 46.30 74.01 66.24
Qwen2.5-Math-RM-72B 96.61 86.63 43.60 73.62 47.21 47.29 84.24 68.46
\hdashline AceMath-7B-RM (Ours) 96.66 85.47 41.96 73.82 46.81 46.37 80.78 67.41
AceMath-72B-RM (Ours) 97.23 86.72 45.06 74.69 49.23 46.79 87.01 69.53
pass@8 (Oracle) 98.86 91.84 56.18 82.09 59.00 56.38 96.15 77.21
表6: AceMath-RewardBenchにおける報酬モデルの評価。数学ベンチマークにおける報酬モデルの平均結果(rm@8)。64の候補から8つの応答をランダムにサンプリングし、100のランダムシードで実施。応答候補は8つのLLM(Qwen{2/2.5}-Math-{7/72}B-Instruct、Llama-3.1-{8/70}B-Instruct、Mathtral-7B-v0.1、deepseek-math-7b-instruct)のプールから生成される。

4.2 Reward Training Strategy

我々の報酬モデルのアーキテクチャは、結果報酬アプローチを採用しており、言語モデルの最上部に線形層を導入して、最後のトークン表現をスカラー値に投影する。報酬モデルのバックボーンは、教師あり微調整モデル(すなわち、AceMath-Instruct)を用いて初期化する。 Qwen2.5-Math (Yang et al., 2024b)で確立された学習目的に従い、我々はk𝑘kitalic_k個の正例(正解)候補と6k6𝑘6-k6 - italic_k個の負例(不正解)候補を持つ問題-応答ペアを構築する。 表8に示すように、ペアワイズアプローチと比較して計算効率が高いリストワイズBradley-Terry損失 (Bradley & Terry, 1952)を計算する。

rm(θ)=subscriptrm𝜃absent\displaystyle\mathcal{L}_{\text{rm}}(\theta)=caligraphic_L start_POSTSUBSCRIPT rm end_POSTSUBSCRIPT ( italic_θ ) =
1k(6k)𝔼(x,ypos,yneg)[log(σ(rθ(x,ypos)rθ(x,yneg)))]1𝑘6𝑘subscript𝔼𝑥subscript𝑦possubscript𝑦negdelimited-[]𝜎subscript𝑟𝜃𝑥subscript𝑦possubscript𝑟𝜃𝑥subscript𝑦neg\displaystyle-\frac{1}{k\cdot(6-k)}\mathbb{E}_{(x,y_{\text{pos}},y_{\text{neg}% })}\Big{[}\log\big{(}\sigma(r_{\theta}(x,y_{\text{pos}})-r_{\theta}(x,y_{\text% {neg}}))\big{)}\Big{]}- divide start_ARG 1 end_ARG start_ARG italic_k ⋅ ( 6 - italic_k ) end_ARG blackboard_E start_POSTSUBSCRIPT ( italic_x , italic_y start_POSTSUBSCRIPT pos end_POSTSUBSCRIPT , italic_y start_POSTSUBSCRIPT neg end_POSTSUBSCRIPT ) end_POSTSUBSCRIPT [ roman_log ( italic_σ ( italic_r start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x , italic_y start_POSTSUBSCRIPT pos end_POSTSUBSCRIPT ) - italic_r start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x , italic_y start_POSTSUBSCRIPT neg end_POSTSUBSCRIPT ) ) ) ]

ここで、rθ(x,y)subscript𝑟𝜃𝑥𝑦r_{\theta}(x,y)italic_r start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT ( italic_x , italic_y )は報酬モデルrθsubscript𝑟𝜃r_{\theta}italic_r start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPTの出力スコアを表し、x𝑥xitalic_xは問題を、y𝑦yitalic_yは応答候補を表す。この損失関数は、正例と負例の候補スコア間のマージンを最大化することにより、正解と不正解の応答を識別するモデルの能力を最適化するように設計されている。

4.3 Reward Evaluation Benchmarks

4.3.1 AceMath-RewardBench

既存の数学報酬ベンチマークは、候補解の種類と数学問題の難易度範囲の両面で多様性に欠けている。 この問題に対処するため、我々は数学報酬モデル評価ベンチマークであるAceMath-RewardBenchを構築した。これは7つのデータセットを含み、堅牢な評価のために8つの異なるLLMを使用して解答を生成する。 このベンチマークは、文献で広く使用されているベストN法(BoNまたはrm@n𝑛nitalic_n)指標を採用している(Cobbe et al., 2021; Lightman et al., 2023; Yang et al., 2024b)。 報酬モデルの主な目的は、n𝑛nitalic_nの候補セットから最高の報酬スコアを持つモデル応答を選択し、§3.4.2で使用した各数学ベンチマーク(7データセット)の問題解決率を計算することである。 我々は、推論段階での計算効率を最適化するため、Qwen2.5-Mathの評価プロトコルに従ってrm@8指標を採用している。 ベンチマークのパフォーマンスの堅牢性と統計的信頼性を確保するため、我々は2つの設計原則を実装している:1) 多様なモデル分布:数学および汎用LLMのセット(すなわち、Qwen2.5-Math-7/72B-Instruct (Yang et al., 2024b)、Qwen2-Math-7/72B-Instruct (Yang et al., 2024a)、Llama-3.1-8/70B-Instruct (Dubey et al., 2024)、DeepSeek-Math-7B-Instruct (Shao et al., 2024)、Mathtral-7B-v0.1 (Jiang et al., 2023))から各モデルの8つの応答をサンプリングし、潜在的なモデル固有のスタイルバイアスを軽減する;2) 100のランダムシードにわたって結果を平均化して精度指標を計算し、結果の分散を減少させ再現性を向上させる。

合計すると、ベンチマークの各問題には8つのLLMからの64の候補応答が含まれている。 我々はこれらの64の候補から8つの応答をランダムにサンプリングし、rm@8の結果を計算し、100のランダムシードにわたって最終的な精度を平均化する。 数学SFT評価とは異なり、我々はMATH500 (Lightman et al., 2023)を使用する。これはMATHデータセット(Hendrycks et al., 2021b)から500問をサンプリングしたサブセットであり、PRM800K (Lightman et al., 2023)やRewardBench (Lambert et al., 2024)などの先行研究に従っている。

4.3.2 RewardBench (MATH500) and RewardMath

我々独自のベンチマークに加えて、RewardBench (Lambert et al., 2024) (MATH500) とRewardMath (Kim et al., 2024)でも評価を行い、MATH500 (Lightman et al., 2023)の各問題に対する候補リストから正しい解答を選択する精度を報告する。これら2つのベンチマークの主な違いは候補セットにある:RewardBenchは1つの正解(人間が書いた)解答と1つの不正解候補(GPT-4が生成)を使用するのに対し、RewardMathは1つの正解(GPT-4による書き直し)と9つの不正解候補(モデルが生成)を使用する。Kim et al. (2024)は、人間が書いた解答と機械生成の解答の間に大きな分布のシフトがあることを強調している。前者は通常、より短く、簡潔で、詳細が少ない傾向がある。 このスタイルと内容の違いが、RewardBenchで95%を超える飽和精度が部分的に説明される可能性がある。この限界に対処し、報酬モデルの堅牢性をより良く評価するために、彼らはRewardMathを提案している。これはより挑戦的な評価設定を導入し、ほとんどの報酬モデルがこの新しいベンチマークで大きく苦戦し、約30%以下の精度しか達成できないことを示している。

4.4 Experiments of Reward models

4.4.1 Hyperparameters

我々は、結果報酬モデルAceMath-RM-7/72Bを訓練するためのバックボーンとしてAceMath-7B/72B-Instructモデルを使用する。モデルはAdamW (Kingma, 2014; Loshchilov, 2017) を用いて2エポック訓練され、学習率は{5e-6, 2e-6}、コサイン学習率スケジューラを使用し、実効バッチサイズは256である。7Bモデルの訓練は8台のH100 GPU上で、72Bモデルの訓練は256台のH100 GPU上で実施される。

4.4.2 Baselines

数学的報酬モデリングにおいて、我々は現在の最先端の結果報酬モデルであるQwen2.5-Math-RM-72B (Yang et al., 2024b) と、プロセス報酬モデルSkywork-o1-Open-PRM-Qwen-2.5-7B (Skywork-o1, 2024) と比較する。 また、majority@8(多数決)ベースラインとpass@8(8つのうち1つでも正解)をオラクル報酬モデルとして含め、このベンチマークの上限を測定する。 さらに、RewardBenchで上位にランクされている一般的な報酬モデルであるSkywork-Reward (Liu et al., 2024a) とInternlm2-reward (Cai et al., 2024) も組み込む。これらのモデルは数学分野に特化して訓練されたものではないが、その訓練データの相当部分が数学的内容を含んでいることは注目に値する。例えば、Skywork-Reward (Liu et al., 2024a) は訓練に50%の数学データを使用している。

4.4.3 Results on AceMath-RewardBench

6において、我々のAceMath-72B-RMがAceMath-RewardBenchの平均rm@8精度で最先端の結果を達成し、Qwen2.5-Math-RM-72Bを絶対値で1%上回り(69.53対68.46)、7つのデータセットのうち6つで優れていることを示す。 7Bバリアントは平均67.41の精度を達成し、特にMinerva Math(41.96 \to 45.06)やMMLU STEM(80.78 \to 87.01)など大学レベルのSTEM知識を必要とするデータセットにおいて、7Bから72Bへのモデルサイズのスケーリングの利点を示している。他の報酬モデルのベースラインと比較すると、7Bはインターンlm2とSkywork-Rewardを大きく上回っており、我々のベンチマークはこれらの報酬モデルが多数決ベースラインさえも下回っていることを明らかにしている。それにもかかわらず、報酬モデルとpass@8オラクル精度の間にはかなりの改善の余地が残されていることに注目する。

Model RewardBench MATH500 RewardMath MATH500
Random 50.00 10.00
LLM-as-a-Judge
Claude-3.5-Sonnet 70.70 15.32
GPT-4o-2024-05-13 72.50 25.98
Classifier-based
Math-Shepherd-Mistral-7B 94.41 17.18
ArmoRM-Llama3-8B-v0.1 98.70 20.50
Skywork-Reward-Llama-3.1-8B 96.87 22.15
Internlm2-20b-reward 95.10 33.95
Internlm2-7b-reward 94.90 37.27
Skywork-o1-Open-PRM-7B 78.52 51.34
Qwen2.5-Math-RM-72B 95.97 68.53
\hdashline AceMath-7B-RM (Ours) 92.62 57.76
AceMath-72B-RM (Ours) 97.09 68.94
表7: RewardBench (MATH500) (Lambert et al., 2024) とRewardMATH (Kim et al., 2024) における報酬モデルの精度。\dagger: 結果はRewardMATHからコピーされている。太字: 1位。下線: 2位の精度。

4.4.4 Results on RewardBench and RewardMath

7において、我々のAceMath-72B-RMがRewardMATHで最先端の精度を達成していることを示す。 多くの報酬モデル(例:ArmoRM (Wang et al., 2024a)、Internlm2)がRewardBench MATH500分割で95%以上の精度を達成しているが、RewardMATHでは精度が大幅に低下し、20%から37%の範囲にとどまっている。 我々はSkywork-PRMモデルがRewardMATHでははるかに良い性能(51.34)を示すが、RewardBenchでは悪化(78.5)することを発見した。これは人間が書いた解答に典型的に見られる推論ステップの欠如が原因かもしれず、結果として我々のAceMath-7B-RMは両方のベンチマークでそれを上回っている。結論として、これらの評価結果は、分布外の一般化の課題を完全に排除することはできないものの、多様なモデル生成の解答で訓練することの利点を強調している。

Model AceMath-RewardBench
AceMath-7B-RM 67.41
   \triangleright Backbone: Qwen2.5-Math-7B-Instruct 66.93
   \triangleright Data: Random sampling 67.07
   \triangleright Loss: Pairwise BT 67.33
   \triangleright Loss: Cross-entropy Classification 66.93
   \triangleright Loss: MSE Regression 66.79
\hdashline AceMath-72B-RM 69.53
   \triangleright Backbone: Qwen2.5-Math-72B-Instruct 69.09
   \triangleright Loss: Cross-entropy Classification 68.66
表8: AceMath-RewardBenchにおけるAceMath-7/72B-RMのアブレーション研究(バックボーン:AceMath-7/72B-Instruct; データ:報酬スコーソート済みサンプリング; 損失:リストワイズBradley-Terry)。

4.4.5 Ablation studies

8において、我々は報酬モデルを訓練するために使用されるモデルバックボーン、データサンプリング方法、および異なる損失関数についてのアブレーション研究を実施する。 まず、報酬モデルを訓練するためのバックボーンモデルとしてAceMath-7B-Instructを使用することで、7つのデータセットの平均でQwen2.5-Math-7B-Instructを一貫して上回り、72Bスケールでも同様の性能差が観察されることがわかった。 第二に、データ構築プロセス中に報酬スコーソート済みサンプリング(§4.1.2)を採用することで、ランダムサンプリングと比較して平均精度が向上することを観察した。これは、ヒューリスティック評価ツールキットが偽陰性エラーを生成する際にノイズのあるラベルをフィルタリングすることの利点を強調している。 最後に、異なる損失関数を実験した。ペアワイズBradley-Terry損失を使用することで、リストワイズ損失アプローチと同等の精度を達成できることがわかったが、8台のH100 GPUを使用して3.7×\times×倍の訓練時間を必要とした。 さらに、クロスエントロピー損失を使用した分類器の訓練や平均二乗誤差(MSE)損失を使用した回帰モデルの訓練は、どちらも精度が低下した。クロスエントロピー分類アプローチについては、72Bスケールでも同様の性能差が観察された。 データはリストワイズBTアプローチ用に構築されており、各問題は6つの応答で構成されているため、これにより8台のGPUで3.8倍の計算時間が必要となる。

Refer to caption
図4: AceMath-7B-Instructに対する7つのデータセットの平均精度におけるrm@k𝑘kitalic_k評価。
Refer to caption
図5: 報酬モデル訓練の学習曲線。すべてのモデルはQwen2.5-Instructファミリーから訓練されている。

4.4.6 Results on rm@k𝑘kitalic_k

4において、我々はAceMath-72B-RMとQwen2.5-Math-RM-72Bのrm@k𝑘kitalic_kk=8,16,32,64,128𝑘8163264128k=8,16,32,64,128italic_k = 8 , 16 , 32 , 64 , 128)を、表6に記載された7つのデータセットにわたって比較する。これらのサンプルはAceMath-7B-Instructによって生成されたものである。我々は、これら7つのデータセットの平均精度を報告し、各データセットには10の異なるランダムシードを使用している。

まず、AceMath-72B-RMを使用してAceMath-7B-Instructの出力をスコアリングすることで、平均精度が一貫して向上し、k𝑘kitalic_kが8から128に増加するにつれて72.6から74.4に上昇することがわかった。 次に、AceMath-RMがAceMath-7B-Instructから生成された出力のスコアリングにおいて、Qwen2.5-Math-RMを一貫して上回り、この改善はk𝑘kitalic_kが増加するにつれてより大きくなることを観察した。

さらに、我々はAceMath-72B-RMとAceMath-Instructのペアの性能を、Qwen2.5-Math-RM-72BとQwen2.5-Math-Instructのペアと比較した。図1に示すように、AceMathの組み合わせは、7Bと72Bの両モデルにおいて、rm@8の平均で一貫してQwen2.5のカウンターパートを上回っている。 注目すべきことに、我々のAceMath-7Bモデルは、慎重に設計された報酬モデルとペアになった場合、rm@8においてQwen2.5-Math-72Bさえも上回ることがわかり、小規模モデルの潜在能力を示している。

4.4.7 Learning curves of reward model training

5において、我々はモデルサイズを増加させ、追加データを使用することで報酬モデリングの精度がどのように向上するかを理解しようとする。モデルサイズとデータスケーリングの相互作用に異なるパターンを見出した。一般に、GSM8Kのような比較的単純なデータセットでは、すべてのモデルサイズ(0.5Bから32Bパラメータの範囲)が訓練の進行とともに着実に改善を示し、より大きなモデルがより高い精度を達成している。対照的に、Minerva Math、MMLU STEM、OlympiadBenchなど、大学レベルの知識を必要

5 Conclusion

本稿では、最先端の数学指示モデルおよび報酬モデルであるAceMathシリーズを提示する。 我々は、AceMath-7B-Instructが包括的な数学推論ベンチマークにおいて、従来最高水準であったQwen2.5-Math-7B-Instructを大きく上回り、10×\times×倍大きいQwen2.5-Math-72-Instructとわずかな差で劣る程度の性能(67.2対68.2)を示すことを実証した。特筆すべきは、我々のAceMath-72B-InstructがQwen2.5-Math-72-Instruct、GPT-4o、およびClaude-3.5 Sonnetを大きく凌駕したことである。 さらに、我々はAceMath-RewardBenchを構築した。これは、多様なデータセットと難易度にわたって数学報酬モデルを評価するために設計された包括的なベンチマークである。我々は、AceMath-72B-RMが様々な数学報酬ベンチマークにおいて、Qwen2.5-Math-RM-72BやSkywork-o1-Open-PRM-Qwen-2.5-7Bを含む最先端の報酬モデルを一貫して上回ることを示した。 加えて、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、数学推論ベンチマークにおいて最高の平均rm@8スコアを達成した。 この分野のオープンな研究を推進するため、我々はAceMath-InstructとAceMath-RMの両方のモデルの重みを、それらの開発全体で使用された完全な訓練データとともにオープンソース化する予定である。

References

  • Adler et al. (2024) Adler, B., Agarwal, N., Aithal, A., Anh, D. H., Bhattacharya, P., Brundyn, A., Casper, J., Catanzaro, B., Clay, S., Cohen, J., et al. Nemotron-4 340b technical report. arXiv preprint arXiv:2406.11704, 2024.
  • Akter et al. (2024) Akter, S. N., Prabhumoye, S., Kamalu, J., Satheesh, S., Nyberg, E., Patwary, M., Shoeybi, M., and Catanzaro, B. Mind: Math informed synthetic dialogues for pretraining llms. arXiv preprint arXiv:2410.12881, 2024.
  • Anthropic (2024) Anthropic. Introducing claude 3.5 sonnet. 2024. URL https://www.anthropic.com/news/claude-3-5-sonnet.
  • Austin et al. (2021) Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • Azerbayev et al. (2023) Azerbayev, Z., Schoelkopf, H., Paster, K., Santos, M. D., McAleer, S., Jiang, A. Q., Deng, J., Biderman, S., and Welleck, S. Llemma: An open language model for mathematics. arXiv preprint arXiv:2310.10631, 2023.
  • Bai et al. (2022) Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., et al. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073, 2022.
  • Bradley & Terry (1952) Bradley, R. A. and Terry, M. E. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39(3/4):324–345, 1952. ISSN 00063444, 14643510. URL http://www.jstor.org/stable/2334029.
  • Cai et al. (2024) Cai, Z., Cao, M., Chen, H., Chen, K., Chen, K., Chen, X., Chen, X., Chen, Z., Chen, Z., Chu, P., et al. Internlm2 technical report. arXiv preprint arXiv:2403.17297, 2024.
  • Chen et al. (2021) Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
  • Chen et al. (2024) Chen, Z., Wang, W., Tian, H., Ye, S., Gao, Z., Cui, E., Tong, W., Hu, K., Luo, J., Ma, Z., et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites. arXiv preprint arXiv:2404.16821, 2024.
  • Chiang et al. (2023) Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., Zhang, H., Zheng, L., Zhuang, S., Zhuang, Y., Gonzalez, J. E., Stoica, I., and Xing, E. P. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, 2023. URL https://lmsys.org/blog/2023-03-30-vicuna/.
  • Cobbe et al. (2021) Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Dai et al. (2024) Dai, W., Lee, N., Wang, B., Yang, Z., Liu, Z., Barker, J., Rintamaki, T., Shoeybi, M., Catanzaro, B., and Ping, W. NVLM: Open frontier-class multimodal LLMs. arXiv preprint arXiv:2409.11402, 2024.
  • Dong et al. (2024) Dong, H., Xiong, W., Pang, B., Wang, H., Zhao, H., Zhou, Y., Jiang, N., Sahoo, D., Xiong, C., and Zhang, T. Rlhf workflow: From reward modeling to online rlhf. TMLR, 2024.
  • Dubey et al. (2024) Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. The Llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.
  • Gemma et al. (2024) Gemma, Riviere, M., Pathak, S., Sessa, P. G., Hardin, C., Bhupatiraju, S., Hussenot, L., Mesnard, T., Shahriari, B., Ramé, A., et al. Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118, 2024.
  • Glaive-AI (2023) Glaive-AI. GlaiveCodeAssistant, 2023. URL https://huggingface.co/datasets/glaiveai/glaive-code-assistant-v2.
  • Guo et al. (2024) Guo, D., Zhu, Q., Yang, D., Xie, Z., Dong, K., Zhang, W., Chen, G., Bi, X., Li, Y., et al. Deepseek-coder: When the large language model meets programming–the rise of code intelligence. arXiv preprint arXiv:2401.14196, 2024.
  • He et al. (2024) He, C., Luo, R., Bai, Y., Hu, S., Thai, Z. L., Shen, J., Hu, J., Han, X., Huang, Y., Zhang, Y., et al. Olympiadbench: A challenging benchmark for promoting agi with olympiad-level bilingual multimodal scientific problems. arXiv preprint arXiv:2402.14008, 2024.
  • Hendrycks et al. (2020) Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., and Steinhardt, J. Measuring massive multitask language understanding. In International Conference on Learning Representations, 2020.
  • Hendrycks et al. (2021a) Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021a.
  • Hendrycks et al. (2021b) Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. Measuring mathematical problem solving with the math dataset. NeurIPS, 2021b.
  • Hui et al. (2024) Hui, B., Yang, J., Cui, Z., Yang, J., Liu, D., Zhang, L., Liu, T., Zhang, J., Yu, B., Lu, K., et al. Qwen2. 5-coder technical report. arXiv preprint arXiv:2409.12186, 2024.
  • Jiang et al. (2023) Jiang, A. Q., Sablayrolles, A., Mensch, A., Bamford, C., Chaplot, D. S., Casas, D. d. l., Bressand, F., Lengyel, G., Lample, G., Saulnier, L., et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Kim et al. (2024) Kim, S., Kang, D., Kwon, T., Chae, H., Won, J., Lee, D., and Yeo, J. Evaluating robustness of reward models for mathematical reasoning. arXiv preprint arXiv:2410.01729, 2024.
  • Kingma (2014) Kingma, D. P. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
  • Lambert et al. (2024) Lambert, N., Pyatkin, V., Morrison, J., Miranda, L., Lin, B. Y., Chandu, K., Dziri, N., Kumar, S., Zick, T., Choi, Y., et al. Rewardbench: Evaluating reward models for language modeling. arXiv preprint arXiv:2403.13787, 2024.
  • Lewkowycz et al. (2022) Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., et al. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, 35:3843–3857, 2022.
  • Li et al. (2024a) Li, C., Yuan, Z., Yuan, H., Dong, G., Lu, K., Wu, J., Tan, C., Wang, X., and Zhou, C. Mugglemath: Assessing the impact of query and response augmentation on math reasoning. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp.  10230–10258, 2024a.
  • Li et al. (2024b) Li, J., Beeching, E., Tunstall, L., Lipkin, B., Soletskyi, R., Huang, S. C., Rasul, K., Yu, L., Jiang, A., Shen, Z., Qin, Z., Dong, B., Zhou, L., Fleureau, Y., Lample, G., and Polu, S. Numinamath. [https://huggingface.co/AI-MO/NuminaMath-CoT](https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf), 2024b.
  • Lian et al. (2023) Lian, W., Wang, G., Goodson, B., Pentland, E., Cook, A., Vong, C., and ”Teknium”. Slimorca: An open dataset of gpt-4 augmented flan reasoning traces, with verification, 2023. URL https://https://huggingface.co/Open-Orca/SlimOrca.
  • Liao et al. (2024) Liao, M., Luo, W., Li, C., Wu, J., and Fan, K. Mario: Math reasoning with code interpreter output–a reproducible pipeline. arXiv preprint arXiv:2401.08190, 2024.
  • Lightman et al. (2023) Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., and Cobbe, K. Let’s verify step by step. arXiv preprint arXiv:2305.20050, 2023.
  • Liu et al. (2024a) Liu, C. Y., Zeng, L., Liu, J., Yan, R., He, J., Wang, C., Yan, S., Liu, Y., and Zhou, Y. Skywork-reward: Bag of tricks for reward modeling in llms. arXiv preprint arXiv:2410.18451, 2024a.
  • Liu et al. (2024b) Liu, Y., Yao, Z., Min, R., Cao, Y., Hou, L., and Li, J. Rm-bench: Benchmarking reward models of language models with subtlety and style. arXiv preprint arXiv:2410.16184, 2024b.
  • Liu et al. (2024c) Liu, Z., Ping, W., Roy, R., Xu, P., Lee, C., Shoeybi, M., and Catanzaro, B. ChatQA: Surpassing gpt-4 on conversational QA and RAG. In NeurIPS, 2024c.
  • Loshchilov (2017) Loshchilov, I. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017.
  • Lu et al. (2024) Lu, J., Dou, Z., Wang, H., Cao, Z., Dai, J., Wan, Y., Huang, Y., and Guo, Z. Autocv: Empowering reasoning with automated process labeling via confidence variation. arXiv preprint arXiv:2405.16802, 2024.
  • Luo et al. (2024) Luo, L., Liu, Y., Liu, R., Phatale, S., Lara, H., Li, Y., Shu, L., Zhu, Y., Meng, L., Sun, J., et al. Improve mathematical reasoning in language models by automated process supervision. arXiv preprint arXiv:2406.06592, 2024.
  • Luo et al. (2023) Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.
  • Mistral (2024) Mistral. MathΣΣ\Sigmaroman_Σtral, 2024. URL https://mistral.ai/news/mathstral/.
  • Mitra et al. (2024) Mitra, A., Khanpour, H., Rosset, C., and Awadallah, A. Orca-math: Unlocking the potential of slms in grade school math. arXiv preprint arXiv:2402.14830, 2024.
  • Mukherjee et al. (2023) Mukherjee, S., Mitra, A., Jawahar, G., Agarwal, S., Palangi, H., and Awadallah, A. Orca: Progressive learning from complex explanation traces of gpt-4. arXiv preprint arXiv:2306.02707, 2023.
  • OpenAI (2024a) OpenAI. Hello GPT-4o, 2024a. URL https://openai.com/index/hello-gpt-4o/.
  • OpenAI (2024b) OpenAI. GPT-4o mini: advancing cost-efficient intelligence, 2024b.
  • Ouyang et al. (2022) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022.
  • Peng et al. (2023) Peng, B., Li, C., He, P., Galley, M., and Gao, J. Instruction tuning with gpt-4. arXiv preprint arXiv:2304.03277, 2023.
  • Setlur et al. (2024) Setlur, A., Nagpal, C., Fisch, A., Geng, X., Eisenstein, J., Agarwal, R., Agarwal, A., Berant, J., and Kumar, A. Rewarding progress: Scaling automated process verifiers for llm reasoning. arXiv preprint arXiv:2410.08146, 2024.
  • Shao et al. (2024) Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y., Wu, Y., and Guo, D. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
  • Shen et al. (2021) Shen, J. T., Yamashita, M., Prihar, E., Heffernan, N., Wu, X., Graff, B., and Lee, D. Mathbert: A pre-trained language model for general nlp tasks in mathematics education. In NeurIPS 2021 Math AI for Education Workshop, 2021.
  • Skywork-o1 (2024) Skywork-o1. Skywork-o1 open series. https://huggingface.co/Skywork, November 2024. URL https://huggingface.co/Skywork.
  • Tang et al. (2024) Tang, Z., Zhang, X., Wang, B., and Wei, F. Mathscale: Scaling instruction tuning for mathematical reasoning. In Forty-first International Conference on Machine Learning, 2024.
  • Tao (2023) Tao, T. Embracing change and resetting expectations, 2023. URL https://unlocked.microsoft.com/ai-anthology/terence-tao/.
  • Teknium (2023) Teknium. GPTeacher-General-Instruct, 2023. URL https://huggingface.co/datasets/teknium/GPTeacher-General-Instruct.
  • The-Vicuna-Team (2023) The-Vicuna-Team. ShareGPT-Vicuna, 2023. URL https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered.
  • Toshniwal et al. (2024) Toshniwal, S., Du, W., Moshkov, I., Kisacanin, B., Ayrapetyan, A., and Gitman, I. Openmathinstruct-2: Accelerating ai for math with massive open-source instruction data. arXiv preprint arXiv:2410.01560, 2024.
  • Touvron et al. (2023) Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.
  • Uesato et al. (2022) Uesato, J., Kushman, N., Kumar, R., Song, F., Siegel, N., Wang, L., Creswell, A., Irving, G., and Higgins, I. Solving math word problems with process-and outcome-based feedback. arXiv preprint arXiv:2211.14275, 2022.
  • Wang et al. (2024a) Wang, H., Xiong, W., Xie, T., Zhao, H., and Zhang, T. Interpretable preferences via multi-objective reward modeling and mixture-of-experts. In EMNLP, 2024a.
  • Wang et al. (2024b) Wang, P., Li, L., Shao, Z., Xu, R., Dai, D., Li, Y., Chen, D., Wu, Y., and Sui, Z. Math-shepherd: Verify and reinforce LLMs step-by-step without human annotations. In Ku, L.-W., Martins, A., and Srikumar, V. (eds.), Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Bangkok, Thailand, August 2024b. Association for Computational Linguistics.
  • Wang et al. (2024c) Wang, Y., Ma, X., Zhang, G., Ni, Y., Chandra, A., Guo, S., Ren, W., Arulraj, A., He, X., Jiang, Z., et al. Mmlu-pro: A more robust and challenging multi-task language understanding benchmark. arXiv preprint arXiv:2406.01574, 2024c.
  • Wang et al. (2023) Wang, Z., Xia, R., and Liu, P. Generative ai for math: Part i–mathpile: A billion-token-scale pretraining corpus for math. arXiv preprint arXiv:2312.17120, 2023.
  • Wang et al. (2024d) Wang, Z., Bukharin, A., Delalleau, O., Egert, D., Shen, G., Zeng, J., Kuchaiev, O., and Dong, Y. Helpsteer2-preference: Complementing ratings with preferences, 2024d. URL https://arxiv.org/abs/2410.01257.
  • Wang et al. (2024e) Wang, Z., Dong, Y., Delalleau, O., Zeng, J., Shen, G., Egert, D., Zhang, J. J., Sreedhar, M. N., and Kuchaiev, O. Helpsteer2: Open-source dataset for training top-performing reward models, 2024e.
  • Wei et al. (2022) Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022.
  • Wei et al. (2024) Wei, Y., Wang, Z., Liu, J., Ding, Y., and Zhang, L. Magicoder: Empowering code generation with oss-instruct. In Forty-first International Conference on Machine Learning, 2024.
  • Xu et al. (2024) Xu, C., Sun, Q., Zheng, K., Geng, X., Zhao, P., Feng, J., Tao, C., Lin, Q., and Jiang, D. WizardLM: Empowering large pre-trained language models to follow complex instructions. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=CfXh93NDgH.
  • Yang et al. (2024a) Yang, A., Yang, B., Hui, B., Zheng, B., Yu, B., Zhou, C., Li, C., Li, C., Liu, D., Huang, F., et al. Qwen2 technical report. arXiv preprint arXiv:2407.10671, 2024a.
  • Yang et al. (2024b) Yang, A., Zhang, B., Hui, B., Gao, B., Yu, B., Li, C., Liu, D., Tu, J., Zhou, J., Lin, J., et al. Qwen2.5-math technical report: Toward mathematical expert model via self-improvement. arXiv preprint arXiv:2409.12122, 2024b.
  • Ying et al. (2024) Ying, H., Zhang, S., Li, L., Zhou, Z., Shao, Y., Fei, Z., Ma, Y., Hong, J., Liu, K., Wang, Z., et al. InternLM-Math: Open math large language models toward verifiable reasoning. arXiv preprint arXiv:2402.06332, 2024.
  • Yu et al. (2023) Yu, L., Jiang, W., Shi, H., Yu, J., Liu, Z., Zhang, Y., Kwok, J. T., Li, Z., Weller, A., and Liu, W. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.
  • Yu et al. (2024) Yu, Y., Chen, Z., Zhang, A., Tan, L., Zhu, C., Pang, R. Y., Qian, Y., Wang, X., Gururangan, S., Zhang, C., et al. Self-generated critiques boost reward modeling for language models. arXiv preprint arXiv:2411.16646, 2024.
  • Yuan et al. (2024) Yuan, L., Cui, G., Wang, H., Ding, N., Wang, X., Deng, J., Shan, B., Chen, H., Xie, R., Lin, Y., et al. Advancing llm reasoning generalists with preference trees. arXiv preprint arXiv:2404.02078, 2024.
  • Yue et al. (2024a) Yue, X., Qu, X., Zhang, G., Fu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mammoth: Building math generalist models through hybrid instruction tuning. ICLR, 2024a.
  • Yue et al. (2024b) Yue, X., Zheng, T., Zhang, G., and Chen, W. Mammoth2: Scaling instructions from the web. NeurIPS, 2024b.
  • Zhang et al. (2024a) Zhang, F., Li, C., Henkel, O., Xing, W., Baral, S., Heffernan, N., and Li, H. Math-llms: Ai cyberinfrastructure with pre-trained transformers for math education. International Journal of Artificial Intelligence in Education, pp.  1–24, 2024a.
  • Zhang et al. (2024b) Zhang, H., Wang, P., Diao, S., Lin, Y., Pan, R., Dong, H., Zhang, D., Molchanov, P., and Zhang, T. Entropy-regularized process reward model, 2024b.
  • Zhang et al. (2024c) Zhang, L., Hosseini, A., Bansal, H., Kazemi, M., Kumar, A., and Agarwal, R. Generative verifiers: Reward modeling as next-token prediction. arXiv preprint arXiv:2408.15240, 2024c.
  • Zheng et al. (2024) Zheng, C., Zhang, Z., Zhang, B., Lin, R., Lu, K., Yu, B., Liu, D., Zhou, J., and Lin, J. Processbench: Identifying process errors in mathematical reasoning. arXiv preprint arXiv:2412.06559, 2024.
  • Zheng et al. (2023) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36:46595–46623, 2023.

Appendix A AIME 2024 & AMC 2023 Results

Models AIME 2024 AMC 2023
Llama-3.1-405B-Instruct 5/30 20/40
Claude 3.5 Sonnet (2024-1022) 4/30 21/40
OpenMath2-Llama3.1-8B 3/30 16/40
OpenMath2-Llama3.1-70B 4/30 20/40
Qwen2.5-Math-1.5B-Instruct 3/30 24/40
Qwen2.5-Math-7B-Instruct 5/30 25/40
Qwen2.5-Math-72B-Instruct 9/30 28/40
AceMath-1.5B-Instruct 4/30 25/40
AceMath-7B-Instruct 6/30 26/40
AceMath-72B-Instruct 6/30 28/40
表9: AceMath-InstructのAIME 2024およびAMC 2023に対する貪欲デコーディング結果。

9はAIME 2024およびAMC 2023に対する貪欲デコーディング結果を示している。我々は、AceMath-1.5B/7B-Instructモデルが両データセットにおいてQwen2.5-Math-1.5B/7B-Instructをわずかに上回る性能を示していることを見出した。一方で、AceMath-72B-InstructはAIME 2024においてQwen2.5-Math-72B-Instructの性能に及ばなかった。 AIME 2024には数学オリンピック予選レベルに匹敵する難易度の高い数学問題が含まれていることを考慮すると、これらの結果は、AceMath-Instructが様々な難易度の数学問題に対してより適切に対応できるよう改善の余地があることを示唆している。

Appendix B AceMath-Instruct Using Different Backbone Models

Models GSM8K MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
DeepSeek-Math-7B-RL 88.20 52.40 20.60 43.60 19.00 37.50 64.80 46.59
我々の手法 (バックボーン: DeepSeek-Coder-7B-Base) 83.85 59.72 29.78 53.51 24.59 44.64 55.95 50.29
我々の手法 (バックボーン: DeepSeek-Math-7B-Base) 85.06 66.86 40.07 56.62 29.63 48.94 65.53 56.10
Llama-3.1-8B-Instruct 84.50 51.90 21.70 38.40 15.40 33.80 60.50 43.74
OpenMath2-Llama3.1-8B 91.70 67.80 16.91 53.76 28.00 46.13 46.02 50.08
我々の手法 (バックボーン: Llama3.1-8B-Base) 91.51 69.06 31.99 59.74 32.00 49.08 67.94 57.33
Qwen2.5-Math-1.5B-Instruct 84.80 75.80 29.40 65.50 38.10 47.70 57.50 56.97
我々の手法 (バックボーン: Qwen2.5-1.5B-Base) 80.89 64.59 30.51 53.25 27.11 47.80 58.62 51.82
我々の手法 (バックボーン: Qwen2.5-Math-1.5B-Base) 86.95 76.84 41.54 64.42 33.78 54.36 62.04 59.99
Qwen2.5-Math-7B-Instruct 95.20 83.60 37.10 66.80

10は、様々なモデルをバックボーンモデルとして使用したAceMath-Instructの完全な結果を示している。さらに、我々はLlama3.1-8B-Baseをバックボーンモデルとした結果を含め、我々のモデルをOpenMath2-Llama3.1-8B (Toshniwal et al., 2024)と比較している。これもLlama3.1-8B-Baseをバックボーンモデルとして使用している。我々は、Qwen2.5-1.5B-Baseに基づく1.5Bモデルを除いて、ベースモデルに基づくものを含む我々のすべてのモデルが、それぞれの強力なベースラインを上回る性能を示すことを見出した。多くの場合、その差は顕著であった。

Appendix C Synthetic Prompt Generation for Math SFT

本節では、数学SFTに特化した合成プロンプトを生成するためにGPT-4o-mini (2024-0718)に提供したプロンプトについて説明する。我々は、Xu et al. (2024)から着想を得た幅広い進化と深い進化のプロンプトを活用している。

C.1 In-Breath Evolution

我々は、より多様な数学の問題を生成するために以下のプロンプトを使用する。

あなたは優れた数学問題の作成者です。

あなたの目的は、#与えられた数学問題#からインスピレーションを得て、全く新しい数学問題を
作成することです。この新しい数学問題は、#与えられた数学問題#とは明確に異なり、
さらにユニークなものでなければなりません。

#作成された数学問題#の長さと難易度は、#与えられた数学問題#のものと同程度であるべきです。

#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。

#与えられた数学問題#:
{given_math_question}

#作成された数学問題#:

C.2 In-Depth Evolution

我々は、より難しい数学問題を生成するために以下のプロンプトを使用する。

あなたは優れた数学問題の作成者です。

あなたの目的は、#与えられた数学問題#からインスピレーションを得て、全く新しい数学問題を
作成することです。この新しい数学問題は、#与えられた数学問題#よりも複雑で
難しいものでなければなりません。

#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。

#与えられた数学問題#:
{given_math_question}

#作成された数学問題#:

さらに、我々は、与えられたプロンプトに制約を追加することを要求する以下のプロンプトが、解決不可能または過度に難しい数学問題をもたらす可能性があることを発見した。これは結果として、訓練データに不正解が含まれることにつながり、最終的にモデルの性能を低下させる可能性がある。

あなたは優れた数学問題の作成者です。

あなたの目的は、#与えられた数学問題#を全く新しいが、より複雑なバージョンに書き直すことです。
追加の制約や要件を導入することで、#与えられた数学問題#を複雑にすることができます。

#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。

#与えられた数学問題#:
{given_math_question}

#作成された数学問題#: