AceMath: Advancing Frontier Math Reasoning with Post-Training
and Reward Modeling
Abstract
本稿では、複雑な数学問題の解決に優れた最先端の数学モデル群であるAceMathと、生成された解答を評価し正解を確実に識別できる高効率な報酬モデルを紹介する。 指示調整された数学モデルを開発するために、我々は教師あり微調整(SFT)プロセスを提案する。このプロセスでは、まず一般的な領域で競争力のある性能を達成し、その後、慎重に選定されたプロンプトと合成生成された応答を用いて数学領域に特化した微調整を行う。 結果として得られたモデルAceMath-72B-Instructは、Qwen2.5-Math-72B-Instruct、GPT-4o、およびClaude-3.5 Sonnetを大きく上回る性能を示す。 数学に特化した報酬モデルを開発するために、我々はまずAceMath-RewardBenchを構築する。これは、多様な問題と難易度にわたって数学報酬モデルを評価するための包括的かつ堅牢なベンチマークである。 その後、我々の数学報酬モデルを構築するための体系的なアプローチを提示する。結果として得られたモデルAceMath-72B-RMは、最先端の報酬モデルを一貫して上回る性能を示す。 さらに、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、数学的推論ベンチマーク全体で最高の平均rm@8スコアを達成する。
1 Introduction
過去1年間、オープンな大規模言語モデル(LLM)コミュニティは、LLMの主要な能力を向上させる上で顕著な進歩を遂げてきた。これには、複数ターンの会話(Chiang et al., 2023; Dubey et al., 2024)、コーディング(Guo et al., 2024; Hui et al., 2024)、マルチモーダル機能(Dai et al., 2024; Chen et al., 2024)、検索拡張生成(RAG)(Liu et al., 2024c)、そして数学的推論(Azerbayev et al., 2023; Shao et al., 2024; Mistral, 2024; Yang et al., 2024b)が含まれる。 これらの能力の中で、数学は知性の基本的な側面として認識されている。その客観的、一貫性のある、検証可能な性質により、信頼性の高いベンチマークとして機能し得る。結果として、数学問題の解決は、複雑で数値的かつ多段階の論理的推論を必要とする困難なタスクに取り組むLLMの能力を評価するための重要なテストベッドとして広く認識されている(e.g., Cobbe et al., 2021; Hendrycks et al., 2021a; Lightman et al., 2023)。
先行研究により、数学に特化したLLMが、困難な数学的ベンチマークにおいて汎用LLMを大幅に上回ることが説得力をもって示されている(Azerbayev et al., 2023; Shao et al., 2024; Mistral, 2024; Yang et al., 2024b)。 これらの数学特化モデル(対応する報酬モデル、別名検証器を含む)は、数学および科学コミュニティにとって価値があるだけでなく(e.g., Tao, 2023)、データ収集に関する貴重な洞察を提供し、合成データ生成ツールとしても機能し、将来の汎用LLMの反復的改善に貢献している。
数学に特化したLLMの改善された数学的推論能力は、一般的に継続的事前学習と事後学習の両方を通じて獲得される: i) 継続的事前学習段階では、モデルは汎用ベースの事前学習済みLLM(例:Llama-3.1-70B (Dubey et al., 2024))で初期化され、数学的コーパスの大規模なコレクションで継続的に学習される。これらのコーパスは、Common Crawl (Shao et al., 2024)、ArXiv論文 (Azerbayev et al., 2023)、および合成的に生成されたデータセット (Yang et al., 2024b; Akter et al., 2024)から得られた数千億のトークンで構成されることが多い。この段階では、コーパス内のすべてのトークンに対して損失が計算される。 ii) 事後学習段階では、継続的に事前学習された数学ベースLLM(例:Qwen2.5-Math-72B (Yang et al., 2024b))が、数学的プロンプト-応答ペアの大規模データセットを用いて微調整される。この段階では、応答トークンに対してのみ損失が計算され、モデルがプロンプトや問題記述に対して正確な回答を生成する能力を洗練させることができる。
本稿では、我々はオープンウェイトのベースLLMと数学ベースLLMを基に、事後学習と報酬モデリングによって数学的推論の限界を押し広げる。 我々は、数学に特化したモデルを構築するための最先端の教師あり微調整(SFT)と報酬モデリング(RM)プロセスを確立し、同時に我々の包括的な研究から得られた重要な洞察を共有する。
具体的に、我々は以下の貢献を行う:
-
1.
我々は、まず一般的な領域(多分野にわたるトピック、コーディング、数学を含む)で競争力のある性能を達成するように設計されたSFTプロセスを導入する。 これを基盤として、一般的なSFTモデルは、綿密に選定されたプロンプトと合成的に生成された応答を用いて、数学領域でさらに微調整される。 高品質な訓練データを活用することで、結果として得られたモデルであるAceMath-7B-Instructは、様々な数学的推論ベンチマークにおいて、以前の最高クラスのQwen2.5-Math-7B-Instructを大きく上回る性能を示し(pass@1: 67.2 対 62.9)(詳細な結果は図1参照)、10倍大きいQwen2.5-Math-72B-Instructの性能に迫っている(67.2 対 68.2)。 特筆すべきは、我々のAceMath-72B-Instructが最先端のQwen2.5-Math-72B-Instructを大きく上回っていることである(71.8 対 68.2)。
-
2.
我々は、数学に特化した報酬モデルを構築するための訓練技術について体系的な調査を行った。この調査では、正負のペアの構築、訓練目的、特定のLLMからのスタイル的バイアスの排除などの重要な側面に焦点を当てた。 この探索から得られた知見を活用し、我々のAceMath-72B-RMは、Qwen2.5-Math-RM-72BやSkywork-o1-Open-PRM-Qwen-2.5-7B (Skywork-o1, 2024)を含む最先端の報酬モデルを、数学領域で一貫して上回る性能を示している。 さらに、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、7つの数学的推論ベンチマークにわたる平均rm@8スコアで最高値を達成し(図1参照)、この分野での性能の新基準を設定している。
-
3.
我々は、AceMath-InstructとAceMath-RMのモデルの重みを、それらの開発の全段階で使用された完全な訓練データとともにオープンソース化する予定である。 また、数学報酬モデルを評価するための包括的なベンチマークであるAceMath-RewardBenchもリリースする。これは、多様なデータセット、様々な難易度レベル、応答スタイルの変動に対する堅牢性を提供する。
2 Related Work
2.1 Continued Pre-training on Math Corpus
多くの研究が、大規模言語モデル(LLM)の数学能力を向上させるために、大規模な数学データを事前学習に統合することを調査してきた(Shen et al., 2021; Wang et al., 2023; Zhang et al., 2024a; Ying et al., 2024; Akter et al., 2024; Hui et al., 2024)。 さらに、一部の研究は、汎用LLMの事前学習を、数学関連のウェブテキスト、百科事典、試験問題、合成数学データなどから得られる広範な数学コーパスで継続することにより、数学に特化したLLMの開発に焦点を当てている(Shao et al., 2024; Yang et al., 2024b)。これらの研究は、この追加の数学に焦点を当てた事前学習が、モデルの数学問題解決能力を大幅に向上させ、事前学習されたベースモデルだけでなく、事後学習後のインストラクトモデルにも恩恵をもたらすことを示している。
2.2 Supervised Fine-Tuning
事前学習済みLLMの多様な能力を向上させるため、指示追従(Chiang et al., 2023; The-Vicuna-Team, 2023; Lian et al., 2023; Mukherjee et al., 2023; Teknium, 2023; Peng et al., 2023; Yuan et al., 2024)、コーディング(Glaive-AI, 2023; Wei et al., 2024; Luo et al., 2023)、数学的問題解決(Yue et al., 2024a, b; Yu et al., 2023; Mitra et al., 2024; Li et al., 2024b)などの能力を対象とした、数多くの教師あり微調整(SFT)データセットが開発されている。人手によるアノテーションデータの高コストを考慮し、プロンプトと応答の両方を含む合成データ生成が、SFTデータ構築の重要な要素となっている(Yu et al., 2023; Xu et al., 2024; Luo et al., 2023; Li et al., 2024a; Toshniwal et al., 2024)。
さらに進んで、数学分野におけるLLMの性能を向上させるため、数学に特化した事前学習モデルをバックボーンとし、数学に特化した大量の合成後学習データを活用した数学指示モデルが開発されている(Shao et al., 2024; Toshniwal et al., 2024; Yang et al., 2024b)。例えば、OpenMathInstruct(Toshniwal et al., 2024)は、Llama3.1ベースモデルに対して大規模な合成データを用いた数学特化型SFTを行うことで、対応するLlama3.1指示モデルを数学ベンチマークで大きく上回ることを示している。さらに、Qwen2.5-Math(Yang et al., 2024b)は、7Bの数学指示モデルがGPT-4oに匹敵する数学的推論能力を達成できることを実証している。
2.3 Reward Modeling
数学的検証のための報酬モデルの訓練には、しばしば正解と不正解を区別する二値分類のような判別的アプローチが用いられる(Cobbe et al., 2021)。あるいは、Bradley-Terry損失(Bradley & Terry, 1952; Ouyang et al., 2022)や回帰損失を利用して解答をランク付けする選好ベースの手法が採用され、HelpSteerのようなモデルで実証されている(Wang et al., 2024e, d)。 対照的に、LLM-as-a-judge(Zheng et al., 2023)のような生成的報酬モデルは、事前に定義された評価基準と採点テンプレートを用いてLLMに検証者として行動するよう促す(Bai et al., 2022)。GenRM(Zhang et al., 2024c)はChain-of-Thought推論(Wei et al., 2022)を活用し、Critic-RM(Yu et al., 2024)は報酬を予測する前に批評を用いる。 我々の結果報酬モデルに関する研究は、主に訓練のために多様なモデル応答をサンプリングすることによって、スタイルバイアスに対する頑健性に焦点を当てている(Liu et al., 2024b)。 結果ベースの報酬モデルを超えて、プロセス報酬モデル(PRMs)はモデル応答のステップバイステップの評価を提供する(Uesato et al., 2022; Lightman et al., 2023)。例えば、Math-Shepherd(Wang et al., 2024b)は訓練のための大規模なプロセス監督データを構築する自動サンプリング手法を導入し、その後、PAV(Setlur et al., 2024)、OmegaPRM(Luo et al., 2024)、ER-PRM(Zhang et al., 2024b)、AutoPSV(Lu et al., 2024)、ProcessBench(Zheng et al., 2024)を含むステップワイズ監督ラベリングのさらなる発展が続いている(Dong et al., 2024)。
3 Supervised Fine-tuning
3.1 Overview
数学に焦点を当てた教師あり微調整(SFT)を効果的に開始するためには、強力な初期化ポイントを提供することが極めて重要である。 先行研究(Shao et al., 2024; Yang et al., 2024b)では、大規模な数学コーパスを用いてLLMの継続的な事前学習を行うことで、その後の数学に特化した事後学習にとってより効果的な初期化が提供されることが示されている。 我々は、これをさらに進めて、事前学習済みLLMに対して一般的なSFTを実施することが、その後の数学に特化したSFTにとってさらに優れた初期化となり得るかどうかを探究する。 この考えは、一般的なタスクに対してSFTを実施することで、モデルが指示に従う能力や推論能力(例えば、知識関連)を強化し、この基盤が数学に焦点を当てたSFTデータから数学問題解決スキルを獲得しやすくするというものである。 一般的なSFTデータの収集の詳細については、§3.2.1で述べる。
次のステップは、数学に特化したSFTデータの構築である。統一された、段階的で正確な解答を伴う多様な数学プロンプトのセットを開発することが極めて重要である。数学SFTデータの収集の詳細については、§3.2.2で述べる。
3.2 Data Curation
3.2.1 General SFT Data
我々の目標は、後続の数学特化SFTの強力な出発点となる一般的なSFTモデルを構築することである。この一般的なSFTモデルは、指示に従うことに優れ、数学やコーディングに関連するものを含む幅広い質問に答えられるべきである。
Prompt Construction
この目標を達成するために、我々は多様なオープンソースデータセットからプロンプトを収集し、以下のように分類した:
- •
- •
- •
異なるデータソースにプロンプトの重複がある可能性があるため、我々はデータの重複排除を行い、小文字に変換した際に同一のプロンプトを除去する。 重複排除後、プロンプトの多様性を保持するために、プロンプトセットをフィルタリングせずに保持する。
Response Construction
プロンプトを収集した後、我々の目標は、モデルがより効果的に学習できるように、一貫したフォーマットで高品質な応答を構築することである。 したがって、異なるキュレーターによって収集されたり、異なるモデルによって生成されたりしたために品質が不十分で一貫性のないフォーマットである可能性があるため、これらのプロンプトに対する元のオープンソースの応答を使用することは避ける。 我々は、コーディングおよび一般ドメインの収集されたプロンプトに対する応答を生成するためにGPT-4o-mini(2024-0718)を使用する。 GPT-4o-miniは、さまざまなタスクと指示にわたって強力な性能を示し、またコンパクトなサイズであるため、大量の生成された応答を時間効率よくかつコスト効率よく生成できることから選択された。 数学SFTプロンプトの応答構築の詳細については§3.2.2に記載する。
我々は、各プロンプトに対して貪欲デコーディングを用いて単一の応答を生成し、最終的に約120万のコーディングSFTサンプル(6.7億トークン)と70万のサンプル(5.5億トークン)を一般ドメインで蓄積する。 そして、一般SFTのために数学SFTデータ(§3.2.2で説明)から約120万サンプル(9.5億トークン)を取得する。
3.2.2 Math SFT Data
目標は、統一された、段階的で正確な解答を伴う多様な数学プロンプトのセットを構築することである。
Initial Prompts
我々はまず、一般SFTデータから数学プロンプトを取得し、具体的には以下のオープンソースデータセットから抽出する:NuminaMath (Li et al., 2024b)、OrcaMathWordProblems (Mitra et al., 2024)、MathInstruct (Yue et al., 2024a)、およびMetaMathQA (Yu et al., 2023)。これらのプロンプトは、小学校、高校、大学レベル、およびオリンピックレベルの数学の課題を含む幅広い数学問題をカバーしている。その後、以前と同様にデータの重複排除を行い、重複するプロンプトを削除する。最終的に、130万以上の初期プロンプトを収集する。
Synthetic Prompt Generation
さらに、我々は数学プロンプトコレクションの多様性を豊かにするために、追加の合成プロンプトを生成する。 このプロセスには2つの重要なステップがある:1)多様なシードプロンプトを活用して、強力なinstructモデルに全く新しい、潜在的により難しいまたは珍しいプロンプトを生成させる、2)生成されたプロンプトが解決可能であることを確認する。解決不可能なプロンプトは不正確な回答につながり、トレーニングに使用した場合にパフォーマンスを低下させる可能性があるためである。 したがって、我々はNuminaMathを様々な難易度の数学問題を幅広くカバーしているためシードプロンプトソースとして選択する。次に、Xu et al. (2024)にインスパイアされた2つの戦略を適用する:より珍しいプロンプトを生成するための幅広い進化と、より難しいプロンプトを生成するための深い進化である。合成プロンプトの生成には、GPT-4o-mini(2024-0718)を使用する。
低品質の合成プロンプトをフィルタリングすることが重要である。 特に、深い進化の一種である、既存のプロンプトに制約を追加して新しいプロンプトを生成する方法が、時として解決不可能または過度に難しい問題を生成することがあることを我々は発見した。これは結果として、トレーニングデータに不正確な回答が含まれることにつながり、最終的にモデルのパフォーマンスを低下させる可能性がある(§3.6.4のアブレーション研究を参照)。 その結果、我々はこのタイプのプロンプト拡張を除外する。さらに、300語を超える合成プロンプトをフィルタリングする。過度に長い数学関連のプロンプトは多くの場合、問題があるか解決不可能であるためである。最後に、トレーニングのためのより洗練されたデータセットを確保するために、50万をフィルタリングして合成数学プロンプトを約100万に絞り込む。結果として、我々は合計230万以上の数学プロンプト(130万の初期プロンプト + 100万の合成プロンプト)のコレクションを持つ。 合成プロンプト生成の詳細については付録Cに記載する。
Response Construction
我々は、様々な数学ベンチマークにおいて最先端の性能を示すQwen2.5-Math-72B-Instructを数学プロンプトへの応答生成に使用する。 プロンプトに「段階的に推論し、最終的な答えを\\内に記入してください。」という指示を追加することで、応答が明確で段階的なフォーマットで一貫したスタイルで提示されることを確保する。
我々は230万以上のプロンプトそれぞれに対して単一の応答を生成し、統一された構造(例えば、質問の要約で応答を開始し、最終的な答えを\\内に記入する)に従う応答(およびそれらのプロンプト)のみを選択することで、応答フォーマットの一貫性を確保する。 さらに、2,500語を超える応答は、過度に長い応答が多くの場合、冗長または不正確な解答、あるいは未完成の応答を示すため、そのプロンプトとともに除外する。 加えて、Qwen2.5-Math-72B-Instructは強力な能力を示すが、時折繰り返しの文字列(例えば、最大出力長に達するまで同じテキストを繰り返す)を生成することがある。我々はこのようなパターンを検出し、対応するプロンプトとともに削除する。 これらのケースはデータセットのごく一部を占めるに過ぎないが、最終的なパフォーマンスに悪影響を与える可能性があるため、キュレーションプロセス中に慎重にフィルタリングされる。 フィルタリング後、我々は合計約230万の数学SFTサンプル(18.3億トークン)を得る。そのうち約120万が一般SFTに使用される。
Qwen2.5-Math-72B-Instructは依然として不正確な解答を生成する可能性があり、これがモデルのトレーニングに悪影響を与える可能性がある。 これを緩和するために、我々はトレーニングのためのより高品質なデータセットを作成するために、正確な最終答えを持つサンプルの特定に焦点を当てる。
我々のアプローチは、異なるモデルによって生成された答えをクロスチェックし、一貫した結果を持つ解答を正確である可能性が高いものとして扱うことを含む。具体的には、我々は別の強力なモデルであるGPT-4o-mini(2024-0718)を活用して応答を生成する。GPT-4o-miniは数学においてQwen2.5-Math-72B-Instructと比較して比較的弱いため、プロンプ
一般的なタスクの中で、複雑なコーディングや数学の問題を解くことは特に難しく、多くの一般的な指示モデルはしばしばこれらに苦戦する。この問題に対処し、より効果的な一般SFTモデルを開発するために、我々は2段階の訓練アプローチを導入する。 ステージ1では、コードと数学のSFTタスク用に特別に選定された大規模なデータセットでモデルを訓練し、これらの分野での強固な基盤を提供する。ステージ2では、コード、数学、その他の一般的なSFTデータのバランスの取れた組み合わせを取り入れることで範囲を拡大し、モデルの能力を広げ、全体的なパフォーマンスを向上させる。 我々は、この2段階訓練をサポートするために構築された一般SFTデータ(約300万サンプル)を整理する。ステージ1では、コーディングと数学のサンプルの大部分が選択され、合計約200万のSFTサンプルとなる。ステージ2の訓練では、残りのコーディングと数学のSFTサンプル、ステージ1データのサブセット、および他のすべての一般SFTサンプルを使用し、合計約160万サンプルとなる。ステージ2の訓練で使用される数学SFTサンプルについては、§3.2.2で詳述したように、GPT-4o-miniとQwen2.5-Math-72B-Instructが提供する最終回答が一致するクロスチェックされた高品質データのみを選択する。この戦略により、ステージ2の訓練では、追加の多様で高品質なコーディングと数学のSFTサンプルを統合し、より堅牢なモデルを育成することができる。 我々は、一般SFTデータで訓練されたベース(または数学ベース)モデルを数学SFTの出発点とする。多様で高品質な数学SFTデータを達成するために、NuminaMath (Li et al., 2024b)からのすべてのサンプル、我々の合成プロンプトからのサンプルのサブセット、およびGPT-4o-miniとQwen2.5-Math-72B-Instructの間でクロスチェックされた80万の数学SFTサンプル(§3.2.2で説明)をマージする。同一のプロンプトを持つ重複サンプルを削除し、結果として数学SFTのために合計160万サンプルとなる。我々は、この訓練ブレンドが、230万の数学SFTサンプルすべてを直接訓練に利用するよりも良い結果をもたらすことを発見した(このアブレーション研究は§3.6.3で見ることができる)。 図2は、数学、コーディング、その他のカテゴリーにわたる総SFTトークンの分布の概要と、数学SFTサンプルの利用に関する詳細を提供している。
合計で、約230万の数学SFTサンプル(18.3億トークン)、120万のコーディングSFTサンプル(6.7億トークン)、その他のカテゴリーで70万サンプル(5.5億トークン)がある。数学SFTサンプルのうち、120万(9.5億トークン)が一般SFTに使用され、160万(12.9億トークン)が数学SFTに利用される。 すべてのSFTモデルはAdamWオプティマイザ (Kingma, 2014; Loshchilov, 2017)を使用して訓練される。我々は一般SFTには5e-6の学習率を、数学SFTには3e-6の学習率を使用する。72Bモデルでは256に増加されるが、それ以外のすべてのモデルサイズで128のグローバルバッチサイズを使用する。一般SFTと数学SFTの両方で、最大シーケンス長4096で1エポックの訓練を実施する。 我々は、一般的なSFTモデルを広く使用されている多様なベンチマークで評価する。
これらのベンチマークは、HumanEval (Chen et al., 2021)やMBPP (Austin et al., 2021)などのコーディングタスク、GSM8K (Cobbe et al., 2021)やMATH (Hendrycks et al., 2021b)などの数学的推論、さらにMMLU (Hendrycks et al., 2020)やMMLU Pro (Wang et al., 2024c)などの一般知識領域で構成されている。我々は、MMLUとMMLU Proに対して標準的な5ショット評価を実施し、残りのベンチマークには0ショット評価を使用する。 我々は、英語の数学タスクを評価するためにQwen2.5-Math (Yang et al., 2024b)の評価設定に従う。
一般的に使用されるGSM8K (Cobbe et al., 2021)とMATH (Hendrycks et al., 2021b)ベンチマークに加えて、我々はMinerva Math (Lewkowycz et al., 2022)、GaoKao 2023 En (Liao et al., 2024)、Olympiad Bench (He et al., 2024)、College Math (Tang et al., 2024)、MMLU STEM (Hendrycks et al., 2020)を含むより広範な数学ベンチマークでもモデルを評価する。これらのベンチマークは、小学校の算数から大学レベルの高度な問題、オリンピックレベルの課題まで、幅広い数学的推論能力を包括的に評価する。 上記のデータセットに加えて、我々はさらにAMC 2023111https://huggingface.co/datasets/AI-MO/aimo-validation-amcとAIME 2024222https://huggingface.co/datasets/AI-MO/aimo-validation-aimeでモデルを評価する。これらのベンチマークは非常に難しい数学コンペティションのベンチマークであるが、サイズが非常に限られており、AMC 2023は40のテストサンプルのみ、AIME 2024は30のサンプルのみで構成されている。Yang et al. (2024b)に従い、我々はこれらのベンチマークを別個に評価し、結果を付録Aに示す。 我々は、MMLU STEMに対して5ショット評価を実施し、残りのベンチマークには0ショット評価を使用する。 なお、MathとGSM8K以外のすべてのベンチマークについて、我々はそれらから派生した訓練データセットや合成データセットを使用していない。これにより、これらのベンチマークにおける我々のモデルの評価がより信頼性が高く、妥当なものとなることを保証している。 表1に示すように、我々は提案する2段階訓練戦略を適用し、DeepSeekCoder-7B (Guo et al., 2024)、Llama3.1-8B (Dubey et al., 2024)、Qwen2.5-1.5B/7B/72B (Yang et al., 2024a)を含む様々なベースモデルに対してSFTを実施した。我々は、微調整された一般的なSFTモデルを、同じベースモデルに基づいて構築された対応する指示ベースラインと比較する。
我々は、DeepSeek-Coder-7B、Llama3.1-8B、Qwen2.5-1.5Bなど、異なるモデルにわたって我々の一般的なSFTが平均スコアで4%以上の大幅な改善をもたらすことを観察した。特に、DeepSeek-Coderの結果は、我々のSFTがコーディングと数学タスクにおいて約10%以上の平均スコア向上という特に顕著な改善を達成したことを示している。
Qwen2.5-7B-InstructやQwen2.5-72B-instructなどのより高度なモデルと比較すると、我々のSFTは同等の性能を発揮する。これらの発見は、我々が構築した一般的なSFTデータセットの有効性と強力な汎化能力を強調している。 表2に示すように、我々は2段階訓練戦略の有効性を研究した。比較のために、異なるファミリーから2つのベースモデル(Qwen2.5とLlama3.1)を使用し、すべての一般的なSFTデータまたはステージ2のSFTデータのみを使用して単一段階の訓練を実施した。 我々は、2段階訓練が一貫して単一段階訓練を上回ることを観察した。
興味深いことに、比較的弱いベースモデル(例:Llama3.1-8B)では、より強力なモデル(例:Qwen2.5-7B)と比較して顕著な改善(平均スコアで3%以上)が見られた。これは、モデルの複雑なコーディングおよび数学タスクを処理する能力を向上させるために、訓練中に広範なコーディングおよび数学データを組み込むことの重要性を強調している。
我々は、Qwen2.5モデルがすでに事前訓練中に相当量の数学とコーディングのSFTデータを活用しているため、これらの分野に焦点を当てた追加のステージ1 SFTの効果が減少すると推測する。 表3において、我々はAceMath-Instructモデルを、Qwen2.5-Math-1.5B/7B/72B-Instruct (Yang et al., 2024b)、GPT-4o (OpenAI, 2024a)、Claude-3.5 Sonnet (Anthropic, 2024)を含むいくつかの強力なベースラインと、貪欲デコーディングにおいて比較している。具体的には、我々のAceMath-1.5B/7B/72B-InstructモデルはQwen2.5-Math-1.5B/7B/72B-baseモデルを基盤としており、これらはQwen2.5-Math-1.5B/7B/72B-Instructの基礎でもある。我々は、AceMath-1.5B、7B、72B-Instructが、対応するQwen2.5-Math-1.5B、7B、72B-Instructモデルと比較して、大幅に優れた性能を達成していることを見出した。我々の最良のモデルであるAceMath-72B-Instructは、以前の最先端モデルであるQwen2.5-Math-72B-Instructと比較して、平均で3.68の大幅な改善を達成している。これは、我々が構築した数学SFTデータの優れた品質と汎用性を強調している。 さらに、我々の7BモデルであるAceMath-7B-Instructは、Llama3.1-405B-Instruct、GPT-4o、Claude-3.5 Sonnetなどのいくつかの高度な指示モデルと比較して、優れたまたは同等の性能を示すことを見出した。そして、はるかに大規模なQwen2.5-Math-72B-Instructの性能に近づいており、平均スコアの差はわずかである(68.16対67.17)。 図3において、我々はベースモデル(例:Qwen2.5-7B-Base)または数学ベースモデル(例:Qwen2.5-Math-7B-Base)をバックボーンとして使用することが、我々のAceMath-Instructモデルの性能に与える影響を研究している。この研究は、ポストトレーニング後の数学問題解決の性能向上のために、大規模な数学コーパスでの継続的な事前学習(つまり、数学ベースモデルの構築)の重要性を理解するのに重要である。 DeepSeek-7Bの場合、「Ours (Base)」はDeepSeek-Coder-7B-Base (Guo et al., 2024)をバックボーンモデルとして使用し、「Ours (Math Base)」はDeepSeek-Math-7B-Base (Shao et al., 2024)をバックボーンモデルとして使用している。後者は、DeepSeek-Coder-7B-Baseの事前学習を大規模な数学コーパスを用いて継続したものである。数学指示ベースラインはDeepSeek-Math-7B-RL (Shao et al., 2024)であり、これはDeepSeek-Math-7B-Baseから開発されている。Qwen2.5-1.5/7B/72Bの場合、ベースモデルはQwen2.5-1.5/7B/72B-Baseであり、数学ベースモデルはQwen2.5-Math-1.5/7B/72B-Baseで、ベースラインはQwen2.5-Math-1.5/7B/72B-Instructである。 我々は、モデルサイズが大きくなるにつれて、ベースモデルをバックボーンとする我々のモデルの性能が、数学ベースをバックボーンとするモデルの性能に近づくことを見出した。具体的には、Qwen2.5-(Math)-72B-Baseを使用した場合、「Ours (Base)」と「Ours (Math Base)」の性能差は非常に小さくなる(71.84対71.13)。我々は、より大規模なモデルは本質的により優れた数学問題解決能力と汎化能力を持っており、これが継続的な事前学習の必要性を減少させると推測している。
この発見は異なるモデルファミリーにも及んでいる。さらに、1.5Bから7Bのサイズのモデルを比較すると、「Ours (Base)」と「Ours (Math Base)」の性能差は、Qwen2.5-1.5Bよりも7Bモデル(つまりDeepSeek-7BとQwen2.5-7B)の方が小さい。 さらに、Qwen2.5-1.5Bを除いて、「Ours (Base)」のすべてのモデルが、より強力な数学ベースモデルをバックボーンとして使用する対応する数学指示モデルを上回ることを観察した。これは、より小規模なモデル(例:1.5B)が数学問題解決能力を向上させるために、大規模な数学コーパスでの継続的な事前学習により依存していることをさらに示している(完全な結果は付録Bで見ることができる)。 表4において、我々はAceMath-Instructモデルのトレーニングのための様々なバックボーンモデルにわたるトレーニングデータと戦略に関するアブレーション研究を行っている。 まず、GPT-4o-miniの応答またはQwen2.5-Math-72B-Instructの応答のいずれかを個別に使用する効果を探る。我々の最高性能モデルが両方の応答を活用していることを考慮し、一般的な数学SFTデータを構築する際に1つのモデルのみに依存する影響を分析する。特筆すべきは、GPT-4o-miniの応答のみが利用可能な場合でも、Qwen2.5-7B-Baseをバックボーンモデルとして使用した場合、平均スコアの低下はわずか1%で強力な性能を達成している。
さらに、Llama3.1-8B-Baseをバックボーンとする場合、GPT-4o-mini、Qwen2.5-Math-72B-Instruct、またはそれらの組み合わせ(AceMath-Instruct)からの応答を使用しても、同等の結果が得られる。
これは、合成データを生成するために超強力な数学専門家モデルへの依存を最小限に抑える我々のデータ構築プロセスの堅牢性を示している。 次に、数学SFTのための数学特有のサンプルの有効性を分析する。これを研究するために、160万の数学SFTサンプル(詳細は§3.3.2参照)でトレーニングされたAceMath-Instructを、利用可能なすべての数学SFTサンプル(230万)を使用してトレーニングされたモデルや、クロスチェックされた高品質サンプル(80万)のみを使用してトレーニングされたモデルと比較する。単にデータ量を増やすことや、高品質サンプルのみを使用することでは、より良い結果は得られないことがわかった。代わりに、クロスチェックされた高品質データと、多様な数学問題を含む追加サンプルを組み合わせることで、優れた結果が得られる。 第三に、一般的なSFTを行ってから数学SFTに移行することの影響を研究する。これを探るために、一般的なSFTステップをスキップし、すべての数学特有のサンプルを使用して直接数学SFTを行う。我々は、数学ベースモデル(例:Qwen2.5-Math-72B-Base)をバックボーンとして使用する場合でも、一般的なSFTをスキップすると通常約1%の平均スコア低下が生じることを観察した。これらの結果は、数学SFTの前に一般的なSFTを行うことの有効性を強調している。 表5に示すように、我々は合成数学SFTデータが結果にどのように影響するかを研究している。AceMath-Instructを2つのシナリオと比較している:100万の合成データサンプルをすべて削除した場合と、トレーニングのために追加の50万の低品質合成データを含めた場合(例:長いプロンプトや制約を追加する深層進化の一種)である。合成数学SFTデータの詳細は§3.2.2で見ることができる。
両方のシナリオで結果の低下が観察され、合成データを生成するだけでなく、トレーニングのためにそれを慎重に選択することの重要性が強調されている。
適切な合成データを効果的に活用することが、最適な性能を達成するために不可欠であることが証明されている。 我々は、AceMath-Instructのための数学報酬モデルを訓練し、より正確な解答とより優れた推論過程を選択することを目指す。
様々な言語モデルに広く適用できるようにするため、我々は多様な訓練データセットを作成した。以下のセクションでは、我々の訓練方法、評価プロトコル、および実証的結果について詳述する。 我々は§3.2.2の数学SFTデータセット(350K)の一部を利用し、プロンプトとgpt-4o-mini (OpenAI, 2024b)によって生成された回答を参照ラベルとして使用する。
モデル生成の推論ステップの多様性と潜在的な異なる種類の推論ミスを捉えるために、我々は14のLLMのセットから各LLMにつき4つのモデル応答をサンプリングする。これには、Llama2-7b-chat (Touvron et al., 2023)、Llama3.1-8/70B-Instruct (Dubey et al., 2024)、DeepSeek-math-7b-instruct (Shao et al., 2024)、Mistral-7B/Mathstral-7B (Jiang et al., 2023)、Gemma-2/27b-it (Gemma et al., 2024)、およびQwen2/2.5-1.5/7/72B-Instruct (Yang et al., 2024b)が含まれる。
その後、Qwen-math評価ツールキットを使用して参照ラベルと比較することで、モデルの解答を正解または不正解としてアノテーションする。333https://github.com/QwenLM/Qwen2.5-Math/tree/main/evaluation このプロセスにより、各問題に対する正解および不正解の候補回答のプールが初期化され、これらを学習のためのペアとなる応答を作成するためのポジティブサンプルおよびネガティブサンプルとして扱う。 数学的問題の回答は、多様な表現を含む幅広い形式を包含している(例えば、[\frac{1}{2}, 1/2, 0.5]や[1e-5, 110^{-5}]など)。SymPyやlatex2sympy2を使用したヒューリスティックな数学評価ツールキットは、不可避的に偽陰性の候補(すなわち、正解が不正解としてアノテーションされる)を生じさせる可能性がある。ネガティブ候補におけるこのような例は、ノイズを導入し、モデルの学習に悪影響を及ぼす可能性がある。
したがって、すべての候補からランダムにサンプリングする代わりに、我々は候補をランク付けし、スコアソートされたサンプリング戦略を適用する。
具体的には、数学報酬モデルQwen2.5-Math-RM-72Bを使用して、各問題のポジティブおよびネガティブ候補をそのスコアに基づいてランク付けする。
その後、上位のポジティブ候補と下位のネガティブ候補からランダムにサンプリングを行う。は予備実験に基づいて14に設定される。
すべての候補からのランダムサンプリングと比較して、表8のアブレーション研究は、スコアソートされたサンプリング戦略の利点を示している。
結論として、我々は各問題に対して合計6つの応答候補(ポジティブ+ネガティブ)をサンプリングし、ポジティブとネガティブの応答数のバランスを確保し、すべての応答が正解または不正解である問題をフィルタリングする。 LLMは、ゼロショット設定や少数のショット例でプロンプトを与えられた場合、異なるスタイルの思考連鎖推論パスを生成することができる (Wei et al., 2022)。我々は、MMLU (Hendrycks et al., 2021a)などのデータセットにおいて、モデルが指示に提供された単純な5ショットの例に従うため、モデル出力においてかなり短く単純な推論パスが観察されることに気づいた。
このような出力スタイルに対する報酬モデルのパフォーマンスを向上させるために、我々は少数ショットプロンプティングアプローチを使用して、2,000の多肢選択問題に対して単純で短い推論パスを生成する学習データを作成する。
さらに、我々の最終目標はAceMath-Instructモデルファミリーのための報酬モデルを開発することであるため、30,000問題のセットをサンプリングし、AceMath-(1.5/7/72B)-Instructチェックポイントを使用して応答を生成し、学習のためのポジティブおよびネガティブペアを作成する。結論として、我々の最終的な学習データセットは356Kの問題で構成され、各問題には合計6つの応答(ポジティブとネガティブ)が対応付けられている。 我々の報酬モデルのアーキテクチャは、結果報酬アプローチを採用しており、言語モデルの最上部に線形層を導入して、最後のトークン表現をスカラー値に投影する。報酬モデルのバックボーンは、教師あり微調整モデル(すなわち、AceMath-Instruct)を用いて初期化する。
Qwen2.5-Math (Yang et al., 2024b)で確立された学習目的に従い、我々は個の正例(正解)候補と個の負例(不正解)候補を持つ問題-応答ペアを構築する。
表8に示すように、ペアワイズアプローチと比較して計算効率が高いリストワイズBradley-Terry損失 (Bradley & Terry, 1952)を計算する。 ここで、は報酬モデルの出力スコアを表し、は問題を、は応答候補を表す。この損失関数は、正例と負例の候補スコア間のマージンを最大化することにより、正解と不正解の応答を識別するモデルの能力を最適化するように設計されている。 既存の数学報酬ベンチマークは、候補解の種類と数学問題の難易度範囲の両面で多様性に欠けている。
この問題に対処するため、我々は数学報酬モデル評価ベンチマークであるAceMath-RewardBenchを構築した。これは7つのデータセットを含み、堅牢な評価のために8つの異なるLLMを使用して解答を生成する。
このベンチマークは、文献で広く使用されているベストN法(BoNまたはrm@)指標を採用している(Cobbe et al., 2021; Lightman et al., 2023; Yang et al., 2024b)。
報酬モデルの主な目的は、の候補セットから最高の報酬スコアを持つモデル応答を選択し、§3.4.2で使用した各数学ベンチマーク(7データセット)の問題解決率を計算することである。
我々は、推論段階での計算効率を最適化するため、Qwen2.5-Mathの評価プロトコルに従ってrm@8指標を採用している。
ベンチマークのパフォーマンスの堅牢性と統計的信頼性を確保するため、我々は2つの設計原則を実装している:1) 多様なモデル分布:数学および汎用LLMのセット(すなわち、Qwen2.5-Math-7/72B-Instruct (Yang et al., 2024b)、Qwen2-Math-7/72B-Instruct (Yang et al., 2024a)、Llama-3.1-8/70B-Instruct (Dubey et al., 2024)、DeepSeek-Math-7B-Instruct (Shao et al., 2024)、Mathtral-7B-v0.1 (Jiang et al., 2023))から各モデルの8つの応答をサンプリングし、潜在的なモデル固有のスタイルバイアスを軽減する;2) 100のランダムシードにわたって結果を平均化して精度指標を計算し、結果の分散を減少させ再現性を向上させる。 合計すると、ベンチマークの各問題には8つのLLMからの64の候補応答が含まれている。
我々はこれらの64の候補から8つの応答をランダムにサンプリングし、rm@8の結果を計算し、100のランダムシードにわたって最終的な精度を平均化する。
数学SFT評価とは異なり、我々はMATH500 (Lightman et al., 2023)を使用する。これはMATHデータセット(Hendrycks et al., 2021b)から500問をサンプリングしたサブセットであり、PRM800K (Lightman et al., 2023)やRewardBench (Lambert et al., 2024)などの先行研究に従っている。 我々独自のベンチマークに加えて、RewardBench (Lambert et al., 2024) (MATH500) とRewardMath (Kim et al., 2024)でも評価を行い、MATH500 (Lightman et al., 2023)の各問題に対する候補リストから正しい解答を選択する精度を報告する。これら2つのベンチマークの主な違いは候補セットにある:RewardBenchは1つの正解(人間が書いた)解答と1つの不正解候補(GPT-4が生成)を使用するのに対し、RewardMathは1つの正解(GPT-4による書き直し)と9つの不正解候補(モデルが生成)を使用する。Kim et al. (2024)は、人間が書いた解答と機械生成の解答の間に大きな分布のシフトがあることを強調している。前者は通常、より短く、簡潔で、詳細が少ない傾向がある。
このスタイルと内容の違いが、RewardBenchで95%を超える飽和精度が部分的に説明される可能性がある。この限界に対処し、報酬モデルの堅牢性をより良く評価するために、彼らはRewardMathを提案している。これはより挑戦的な評価設定を導入し、ほとんどの報酬モデルがこの新しいベンチマークで大きく苦戦し、約30%以下の精度しか達成できないことを示している。 数学的報酬モデリングにおいて、我々は現在の最先端の結果報酬モデルであるQwen2.5-Math-RM-72B (Yang et al., 2024b) と、プロセス報酬モデルSkywork-o1-Open-PRM-Qwen-2.5-7B (Skywork-o1, 2024) と比較する。
また、majority@8(多数決)ベースラインとpass@8(8つのうち1つでも正解)をオラクル報酬モデルとして含め、このベンチマークの上限を測定する。
さらに、RewardBenchで上位にランクされている一般的な報酬モデルであるSkywork-Reward (Liu et al., 2024a) とInternlm2-reward (Cai et al., 2024) も組み込む。これらのモデルは数学分野に特化して訓練されたものではないが、その訓練データの相当部分が数学的内容を含んでいることは注目に値する。例えば、Skywork-Reward (Liu et al., 2024a) は訓練に50%の数学データを使用している。 表6において、我々のAceMath-72B-RMがAceMath-RewardBenchの平均rm@8精度で最先端の結果を達成し、Qwen2.5-Math-RM-72Bを絶対値で1%上回り(69.53対68.46)、7つのデータセットのうち6つで優れていることを示す。
7Bバリアントは平均67.41の精度を達成し、特にMinerva Math(41.96 45.06)やMMLU STEM(80.78 87.01)など大学レベルのSTEM知識を必要とするデータセットにおいて、7Bから72Bへのモデルサイズのスケーリングの利点を示している。他の報酬モデルのベースラインと比較すると、7Bはインターンlm2とSkywork-Rewardを大きく上回っており、我々のベンチマークはこれらの報酬モデルが多数決ベースラインさえも下回っていることを明らかにしている。それにもかかわらず、報酬モデルとpass@8オラクル精度の間にはかなりの改善の余地が残されていることに注目する。 表7において、我々のAceMath-72B-RMがRewardMATHで最先端の精度を達成していることを示す。
多くの報酬モデル(例:ArmoRM (Wang et al., 2024a)、Internlm2)がRewardBench MATH500分割で95%以上の精度を達成しているが、RewardMATHでは精度が大幅に低下し、20%から37%の範囲にとどまっている。
我々はSkywork-PRMモデルがRewardMATHでははるかに良い性能(51.34)を示すが、RewardBenchでは悪化(78.5)することを発見した。これは人間が書いた解答に典型的に見られる推論ステップの欠如が原因かもしれず、結果として我々のAceMath-7B-RMは両方のベンチマークでそれを上回っている。結論として、これらの評価結果は、分布外の一般化の課題を完全に排除することはできないものの、多様なモデル生成の解答で訓練することの利点を強調している。 表8において、我々は報酬モデルを訓練するために使用されるモデルバックボーン、データサンプリング方法、および異なる損失関数についてのアブレーション研究を実施する。
まず、報酬モデルを訓練するためのバックボーンモデルとしてAceMath-7B-Instructを使用することで、7つのデータセットの平均でQwen2.5-Math-7B-Instructを一貫して上回り、72Bスケールでも同様の性能差が観察されることがわかった。
第二に、データ構築プロセス中に報酬スコーソート済みサンプリング(§4.1.2)を採用することで、ランダムサンプリングと比較して平均精度が向上することを観察した。これは、ヒューリスティック評価ツールキットが偽陰性エラーを生成する際にノイズのあるラベルをフィルタリングすることの利点を強調している。
最後に、異なる損失関数を実験した。ペアワイズBradley-Terry損失を使用することで、リストワイズ損失アプローチと同等の精度を達成できることがわかったが、8台のH100 GPUを使用して3.7倍の訓練時間を必要とした。
さらに、クロスエントロピー損失を使用した分類器の訓練や平均二乗誤差(MSE)損失を使用した回帰モデルの訓練は、どちらも精度が低下した。クロスエントロピー分類アプローチについては、72Bスケールでも同様の性能差が観察された。
データはリストワイズBTアプローチ用に構築されており、各問題は6つの応答で構成されているため、これにより8台のGPUで3.8倍の計算時間が必要となる。 図4において、我々はAceMath-72B-RMとQwen2.5-Math-RM-72Bのrm@()を、表6に記載された7つのデータセットにわたって比較する。これらのサンプルはAceMath-7B-Instructによって生成されたものである。我々は、これら7つのデータセットの平均精度を報告し、各データセットには10の異なるランダムシードを使用している。 まず、AceMath-72B-RMを使用してAceMath-7B-Instructの出力をスコアリングすることで、平均精度が一貫して向上し、が8から128に増加するにつれて72.6から74.4に上昇することがわかった。
次に、AceMath-RMがAceMath-7B-Instructから生成された出力のスコアリングにおいて、Qwen2.5-Math-RMを一貫して上回り、この改善はが増加するにつれてより大きくなることを観察した。 さらに、我々はAceMath-72B-RMとAceMath-Instructのペアの性能を、Qwen2.5-Math-RM-72BとQwen2.5-Math-Instructのペアと比較した。図1に示すように、AceMathの組み合わせは、7Bと72Bの両モデルにおいて、rm@8の平均で一貫してQwen2.5のカウンターパートを上回っている。
注目すべきことに、我々のAceMath-7Bモデルは、慎重に設計された報酬モデルとペアになった場合、rm@8においてQwen2.5-Math-72Bさえも上回ることがわかり、小規模モデルの潜在能力を示している。 図5において、我々はモデルサイズを増加させ、追加データを使用することで報酬モデリングの精度がどのように向上するかを理解しようとする。モデルサイズとデータスケーリングの相互作用に異なるパターンを見出した。一般に、GSM8Kのような比較的単純なデータセットでは、すべてのモデルサイズ(0.5Bから32Bパラメータの範囲)が訓練の進行とともに着実に改善を示し、より大きなモデルがより高い精度を達成している。対照的に、Minerva Math、MMLU STEM、OlympiadBenchなど、大学レベルの知識を必要
本稿では、最先端の数学指示モデルおよび報酬モデルであるAceMathシリーズを提示する。
我々は、AceMath-7B-Instructが包括的な数学推論ベンチマークにおいて、従来最高水準であったQwen2.5-Math-7B-Instructを大きく上回り、10倍大きいQwen2.5-Math-72-Instructとわずかな差で劣る程度の性能(67.2対68.2)を示すことを実証した。特筆すべきは、我々のAceMath-72B-InstructがQwen2.5-Math-72-Instruct、GPT-4o、およびClaude-3.5 Sonnetを大きく凌駕したことである。
さらに、我々はAceMath-RewardBenchを構築した。これは、多様なデータセットと難易度にわたって数学報酬モデルを評価するために設計された包括的なベンチマークである。我々は、AceMath-72B-RMが様々な数学報酬ベンチマークにおいて、Qwen2.5-Math-RM-72BやSkywork-o1-Open-PRM-Qwen-2.5-7Bを含む最先端の報酬モデルを一貫して上回ることを示した。
加えて、AceMath-72B-InstructとAceMath-72B-RMを組み合わせることで、数学推論ベンチマークにおいて最高の平均rm@8スコアを達成した。
この分野のオープンな研究を推進するため、我々はAceMath-InstructとAceMath-RMの両方のモデルの重みを、それらの開発全体で使用された完全な訓練データとともにオープンソース化する予定である。 表9はAIME 2024およびAMC 2023に対する貪欲デコーディング結果を示している。我々は、AceMath-1.5B/7B-Instructモデルが両データセットにおいてQwen2.5-Math-1.5B/7B-Instructをわずかに上回る性能を示していることを見出した。一方で、AceMath-72B-InstructはAIME 2024においてQwen2.5-Math-72B-Instructの性能に及ばなかった。
AIME 2024には数学オリンピック予選レベルに匹敵する難易度の高い数学問題が含まれていることを考慮すると、これらの結果は、AceMath-Instructが様々な難易度の数学問題に対してより適切に対応できるよう改善の余地があることを示唆している。 表10は、様々なモデルをバックボーンモデルとして使用したAceMath-Instructの完全な結果を示している。さらに、我々はLlama3.1-8B-Baseをバックボーンモデルとした結果を含め、我々のモデルをOpenMath2-Llama3.1-8B (Toshniwal et al., 2024)と比較している。これもLlama3.1-8B-Baseをバックボーンモデルとして使用している。我々は、Qwen2.5-1.5B-Baseに基づく1.5Bモデルを除いて、ベースモデルに基づくものを含む我々のすべてのモデルが、それぞれの強力なベースラインを上回る性能を示すことを見出した。多くの場合、その差は顕著であった。 本節では、数学SFTに特化した合成プロンプトを生成するためにGPT-4o-mini (2024-0718)に提供したプロンプトについて説明する。我々は、Xu et al. (2024)から着想を得た幅広い進化と深い進化のプロンプトを活用している。 我々は、より多様な数学の問題を生成するために以下のプロンプトを使用する。 我々は、より難しい数学問題を生成するために以下のプロンプトを使用する。 さらに、我々は、与えられたプロンプトに制約を追加することを要求する以下のプロンプトが、解決不可能または過度に難しい数学問題をもたらす可能性があることを発見した。これは結果として、訓練データに不正解が含まれることにつながり、最終的にモデルの性能を低下させる可能性がある。
3.3 Training Strategy
3.3.1 General SFT Strategy
Models
HumanEval
MBPP
GSM8K
MATH
MMLU
MMLU Pro
Avg.
DeepSeek-Coder-7B-Instruct-v1.5
64.10
64.60
72.60
34.10
49.50
-
-
DeepSeek-Coder-7B-Base + Two-Stage SFT (Ours)
78.05
73.54
82.56
55.62
54.65
33.28
62.95
Llama3.1-8B-Instruct
72.60
69.60
84.50
51.90
69.40
48.30
66.05
Llama3.1-8B-Base + Two-Stage SFT (Ours)
81.10
74.71
90.45
64.42
68.31
43.27
70.38
Qwen2.5-1.5B-Instruct
61.60
63.20
73.20
55.20
58.37
32.40
57.33
Qwen2.5-1.5B-Base + Two-Stage SFT (Ours)
73.17
65.76
80.44
60.34
58.17
33.78
61.94
Qwen2.5-7B-Instruct
84.80
79.20
91.60
75.50
74.51
56.30
76.99
Qwen2.5-7B-Base + Two-Stage SFT (Ours)
85.37
74.32
93.10
76.40
74.68
54.50
76.40
Qwen2.5-72B-Instruct
86.60
88.20
95.80
83.10
84.67
71.10
84.91
Qwen2.5-72B-Base + Two-Stage SFT (Ours)
89.63
83.66
96.36
84.50
83.88
66.10
84.02
Models
HumanEval
MBPP
GSM8K
MATH
MMLU
MMLU Pro
Avg.
Llama3.1-8B-Base + Two-Stage SFT
81.10
74.71
90.45
64.42
68.31
43.27
70.38
Llama3.1-8B-Base + Single-Stage SFT w/ all general SFT data
78.66
69.26
87.79
56.80
67.62
42.64
67.13
Llama3.1-8B-Base + Single-Stage SFT w/ only stage-2 data
73.78
67.32
88.17
55.84
67.48
42.85
65.91
Qwen2.5-7B-Base + Two-Stage SFT
85.37
74.32
93.10
76.40
74.68
54.50
76.40
Qwen2.5-7B-Base + Single-Stage SFT w/ all general SFT data
83.54
75.49
91.96
75.04
73.96
53.36
75.56
Qwen2.5-7B-Base + Single-Stage SFT w/ only stage-2 data
83.54
73.15
92.27
75.12
74.26
53.06
75.23
3.3.2 Math SFT Strategy
3.3.3 SFT Data Summary
3.3.4 Training Details
Models
GSM8K
MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
GPT-4o (2024-0806)
92.90
81.10
50.74
67.50
43.30
48.50
87.99
67.43
Claude-3.5 Sonnet (2024-1022)
96.40
75.90
48.16
64.94
37.93
48.47
85.06
65.27
Llama3.1-70B-Instruct
94.10
65.70
34.20
54.00
27.70
42.50
80.40
56.94
Llama3.1-405B-Instruct
96.80
73.80
54.04
62.08
34.81
49.25
83.10
64.84
OpenMath2-Llama3.1-8B
91.70
67.80
16.91
3.4 Benchmarks
3.4.1 General SFT Benchmarks
3.4.2 Mathematical Benchmarks
3.5 Results of General SFT Models
3.5.1 Main Results
3.5.2 Effectiveness of Two-Stage Training
Models
GSM8K
MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
バックボーン: Llama3.1-8B-Base
AceMath-Instruct
91.51
69.06
31.99
59.74
32.00
49.08
67.94
57.33
Qwen2.5-Math-72B-Instructのみ
91.13
69.66
33.82
60.26
30.37
49.86
66.21
57.33
GPT-4o-miniのみ
90.83
68.12
36.03
60.26
31.70
48.05
66.50
57.36
一般的SFTをスキップ
91.81
68.70
31.99
59.48
31.11
48.40
62.76
56.32
バックボーン: Qwen2.5-7B-Base
AceMath-Instruct
93.56
77.10
43.38
65.19
37.78
54.90
77.41
64.19
Qwen2.5-Math-72B-Instructのみ
92.80
76.96
41.91
63.64
38.07
54.93
75.64
63.42
GPT-4o-miniのみ
91.66
74.14
43.75
64.42
3.6 Results of AceMath-Instruct
3.6.1 Main Results
3.6.2 Backbone Model: Base vs. Math-Base
3.6.3 Ablation Studies on Training Strategy
Models
Average
AceMath-Instruct
64.19
Removing all synthetic data
62.53
Using extra low-quality synthetic data
62.95
3.6.4 Ablation Studies on Synthetic Data
4 Reward Model Training
4.1 Reward Training Data Synthesis
4.1.1 Initial Dataset Construction
4.1.2 Response Scoring and Selection
4.1.3 Addressing Stylistic Biases
Model
GSM8K
MATH500
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
Avg.
majority@8
96.22
83.11
41.20
68.21
42.69
45.01
78.21
64.95
Internlm2-7b-reward
95.26
78.96
36.25
67.51
40.49
43.88
75.42
62.54
Internlm2-20b-reward
95.10
76.53
37.69
66.63
40.12
42.57
70.60
61.32
Skywork-Reward-Llama-3.1-8B-v0.2
95.64
74.16
39.11
67.16
39.10
44.58
76.52
62.32
Skywork-Reward-Gemma-2-27B-v0.2
95.94
74.90
39.37
66.96
39.07
45.46
78.20
62.84
Skywork-o1-Open-PRM-Qwen-2.5-7B
96.92
86.64
41.00
72.34
46.50
46.30
74.01
66.24
Qwen2.5-Math-RM-72B
96.61
86.63
43.60
73.62
47.21
47.29
84.24
68.46
\hdashline
AceMath-7B-RM (Ours)
96.66
85.47
41.96
73.82
46.81
46.37
80.78
67.41
AceMath-72B-RM (Ours)
97.23
86.72
45.06
74.69
49.23
46.79
87.01
69.53
pass@8 (Oracle)
98.86
91.84
56.18
82.09
59.00
56.38
96.15
77.21
4.2 Reward Training Strategy
4.3 Reward Evaluation Benchmarks
4.3.1 AceMath-RewardBench
4.3.2 RewardBench (MATH500) and RewardMath
4.4 Experiments of Reward models
4.4.1 Hyperparameters
4.4.2 Baselines
4.4.3 Results on AceMath-RewardBench
Model
RewardBench
MATH500
RewardMath
MATH500
Random
50.00
10.00
LLM-as-a-Judge
Claude-3.5-Sonnet†
70.70
15.32
GPT-4o-2024-05-13†
72.50
25.98
Classifier-based
Math-Shepherd-Mistral-7B†
94.41
17.18
ArmoRM-Llama3-8B-v0.1†
98.70
20.50
Skywork-Reward-Llama-3.1-8B†
96.87
22.15
Internlm2-20b-reward†
95.10
33.95
Internlm2-7b-reward†
94.90
37.27
Skywork-o1-Open-PRM-7B
78.52
51.34
Qwen2.5-Math-RM-72B
95.97
68.53
\hdashline
AceMath-7B-RM (Ours)
92.62
57.76
AceMath-72B-RM (Ours)
97.09
68.94
4.4.4 Results on RewardBench and RewardMath
Model
AceMath-RewardBench
AceMath-7B-RM
67.41
Backbone: Qwen2.5-Math-7B-Instruct
66.93
Data: Random sampling
67.07
Loss: Pairwise BT
67.33
Loss: Cross-entropy Classification
66.93
Loss: MSE Regression
66.79
\hdashline
AceMath-72B-RM
69.53
Backbone: Qwen2.5-Math-72B-Instruct
69.09
Loss: Cross-entropy Classification
68.66
4.4.5 Ablation studies
4.4.6 Results on rm@
4.4.7 Learning curves of reward model training
5 Conclusion
References
Appendix A AIME 2024 & AMC 2023 Results
Models
AIME 2024
AMC 2023
Llama-3.1-405B-Instruct
5/30
20/40
Claude 3.5 Sonnet (2024-1022)
4/30
21/40
OpenMath2-Llama3.1-8B
3/30
16/40
OpenMath2-Llama3.1-70B
4/30
20/40
Qwen2.5-Math-1.5B-Instruct
3/30
24/40
Qwen2.5-Math-7B-Instruct
5/30
25/40
Qwen2.5-Math-72B-Instruct
9/30
28/40
AceMath-1.5B-Instruct
4/30
25/40
AceMath-7B-Instruct
6/30
26/40
AceMath-72B-Instruct
6/30
28/40
Appendix B AceMath-Instruct Using Different Backbone Models
Models
GSM8K
MATH
Minerva
Math
GaoKao
2023 En
Olympiad
Bench
College
Math
MMLU
STEM
平均
DeepSeek-Math-7B-RL
88.20
52.40
20.60
43.60
19.00
37.50
64.80
46.59
我々の手法 (バックボーン: DeepSeek-Coder-7B-Base)
83.85
59.72
29.78
53.51
24.59
44.64
55.95
50.29
我々の手法 (バックボーン: DeepSeek-Math-7B-Base)
85.06
66.86
40.07
56.62
29.63
48.94
65.53
56.10
Llama-3.1-8B-Instruct
84.50
51.90
21.70
38.40
15.40
33.80
60.50
43.74
OpenMath2-Llama3.1-8B
91.70
67.80
16.91
53.76
28.00
46.13
46.02
50.08
我々の手法 (バックボーン: Llama3.1-8B-Base)
91.51
69.06
31.99
59.74
32.00
49.08
67.94
57.33
Qwen2.5-Math-1.5B-Instruct
84.80
75.80
29.40
65.50
38.10
47.70
57.50
56.97
我々の手法 (バックボーン: Qwen2.5-1.5B-Base)
80.89
64.59
30.51
53.25
27.11
47.80
58.62
51.82
我々の手法 (バックボーン: Qwen2.5-Math-1.5B-Base)
86.95
76.84
41.54
64.42
33.78
54.36
62.04
59.99
Qwen2.5-Math-7B-Instruct
95.20
83.60
37.10
66.80
Appendix C Synthetic Prompt Generation for Math SFT
C.1 In-Breath Evolution
あなたは優れた数学問題の作成者です。
あなたの目的は、#与えられた数学問題#からインスピレーションを得て、全く新しい数学問題を
作成することです。この新しい数学問題は、#与えられた数学問題#とは明確に異なり、
さらにユニークなものでなければなりません。
#作成された数学問題#の長さと難易度は、#与えられた数学問題#のものと同程度であるべきです。
#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。
#与えられた数学問題#:
{given_math_question}
#作成された数学問題#:
C.2 In-Depth Evolution
あなたは優れた数学問題の作成者です。
あなたの目的は、#与えられた数学問題#からインスピレーションを得て、全く新しい数学問題を
作成することです。この新しい数学問題は、#与えられた数学問題#よりも複雑で
難しいものでなければなりません。
#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。
#与えられた数学問題#:
{given_math_question}
#作成された数学問題#:
あなたは優れた数学問題の作成者です。
あなたの目的は、#与えられた数学問題#を全く新しいが、より複雑なバージョンに書き直すことです。
追加の制約や要件を導入することで、#与えられた数学問題#を複雑にすることができます。
#作成された数学問題#は、人間が解決可能で理解できるものでなければなりません。
#与えられた数学問題#:
{given_math_question}
#作成された数学問題#: