Tülu 3: Pushing Frontiers in
Open Language Model Post-Training
Abstract
00footnotetext: 主要貢献者。言語モデルのポストトレーニングは、最近の幅広い言語モデルの挙動を洗練させ、新しいスキルを引き出すために適用されているが、これらの技術を適用するためのオープンなレシピは、独自のものに遅れを取っている。 ポストトレーニングの基礎となるトレーニングデータとレシピは、パズルの中で最も重要な部分であると同時に、最も透明性の低い部分でもある。 この隔たりを埋めるため、我々は最先端のポストトレーニングモデルの完全にオープンな一族であるTülu 3を、そのデータ、コード、トレーニングレシピとともに導入し、現代のポストトレーニング技術の包括的なガイドとして提供する。 Llama 3.1ベースモデルを基に構築されたTülu 3は、Llama 3.1、Qwen 2.5、Mistralの指示バージョン、さらにはGPT-4o-miniやClaude 3.5-Haikuなどのクローズドモデルをも凌駕する結果を達成している。 我々のモデルのトレーニングアルゴリズムには、教師あり微調整(SFT)、直接選好最適化(DPO)、そして我々が検証可能報酬による強化学習(RLVR)と呼ぶ新しい手法が含まれる。 Tülu 3では、開発用および未見の評価を含むポストトレーニングのためのマルチタスク評価スキーム、標準的なベンチマーク実装、および既存のオープンデータセットの当該ベンチマークに対する実質的な汚染除去を構築している。 本稿は、パフォーマンスを確実に向上させなかったトレーニング手法の分析と議論で締めくくられる。
Tülu 3のリリースには、モデルの重み、デモ、そして完全なレシピ — 多様なコアスキルのためのデータセット、データキュレーションと評価のための堅牢なツールキット、トレーニングコードとインフラストラクチャ、そして最も重要なこととして、Tülu 3アプローチをより多くの領域に再現し、さらに適応させるための詳細なレポートが含まれている。
1 Introduction
「ラクダがキャラバンの中で荷物を分け合うように、賢者は無知の重荷を軽くするために洞察を共有する。」 – Tülu 3が生成した格言
ポストトレーニング — 指示チューニング、人間のフィードバックからの強化学習、その他の種類の微調整を含む技術の集合 — は、最先端の言語モデルを構築する上で重要なステップとなっている(OpenAI2024; Anthropic2024)。しかし、これらの技術の発展は、しばしばオープンなリソースやレシピを伴わない。 完全にオープンソースの対応物(例えば、Tülu 2 (ivison2023camels)やZephyr- (tunstall2023zephyr))は、しばしば実装が簡単で安価なパイプラインに依存しており、多くの指標で時代遅れになっている。
オープンとクローズドなポストトレーニングの間のギャップを埋めるために、我々はTülu 3を紹介する。これは最先端のポストトレーニングモデルのファミリーであり、すべてのデータ、トレーニングレシピ、コード、インフラストラクチャ、評価フレームワークを併せて提供する。独自の手法からの部分的な詳細を、新しい技術や確立された学術研究と統合することで、Tülu 3はポストトレーニングの研究の境界を押し広げる。Tülu 3の進歩は、以下の要素に起因する:Tülu 3 Data(コアスキルを対象とした新しい寛容なライセンスのトレーニングデータセット)、Tülu 3 Eval(明確なパフォーマンス目標を設定し、トレーニングの各段階を通じて改善を導く評価スイートとツール)、そしてTülu 3 Recipe(強化学習における新しいアルゴリズムの進歩、最先端のインフラストラクチャ、そして様々なトレーニング段階におけるデータミックス、手法、パラメータを最適化するための厳密な実験を組み込んだ高度な多段階トレーニングパイプライン)。
Tülu 3を構築するために、我々は訓練後に改善すべき一連のコアスキル(例えば、推論、数学、コーディング、安全性、正確な指示の遵守、知識の想起など)を特定し、明確な性能目標を設定し、開発タスクと未見のタスクの選択にわたってモデルの改善を導くための評価フレームワークを構築する。Tülu 3は、公開されているオープンデータを活用し、様々な訓練段階で多様なスキル特化型の合成データを生成し、我々の評価スイートに対してそれらを積極的にデコンタミネーションすることで大きな恩恵を受けている。
Tülu 3の訓練レシピは複数の段階を含み、各段階は前のモデルを基に構築され、異なる種類のデータ、すなわち教師あり微調整のためのプロンプト-補完インスタンス、選好チューニングのための選好、または強化学習のための検証可能な報酬に焦点を当てている。我々の方法論は、スキルの不足を特定し、データミックス、手法、パラメータを洗練させ、訓練プロセス全体でコアスキルのバランスの取れた性能を確保することを可能にする。 厳密で原則に基づいた実験を通じて、我々は教師あり微調整のための最適なデータミックスを決定し、Tülu 3 SFTチェックポイントを生成する。選好チューニングにおける最近の進歩を活用し、我々は次にオンポリシーの選好データを慎重に選別し、Tülu 3 SFTの補完を他の言語モデルの出力と比較することでモデルを訓練する。 さらに、我々は新しい最終微調整段階 - 検証可能な報酬による強化学習(RLVR)- を導入する。これは、数学や正確な指示の遵守など、検証可能な回答を持つ特定のスキルを向上させるために調整された新しいRL目的関数を採用している。
我々の最も性能の高いレシピは、同サイズの最先端のポストトレーニングされたオープンウェイトモデル、例えばLlama 3.1 Instruct (dubey2024llama)、Qwen2.5 Instruct (qwen2.5)、またはMistral-Instruct (mistral2024ministraux)を凌駕するTülu 3モデルを生み出し、大規模な70BサイズではTüluはClaude 3.5 HaikuやGPT-4o miniなどのクローズドプロバイダーの提供物に匹敵する。
要約すると、Tülu 3は最先端のオープン言語モデルファミリーを表しており、完全にオープンソースのデータTülu 3 Data、評価Tülu 3 Eval、トレーニングコードTülu 3 Code、および開発レシピTülu 3 Recipeを備えた現代的なポストトレーニングフレームワークを特徴としている。以下はTüluの開発からの主要な貢献である:
-
•
評価、デコンタミネーション、およびレシピ設計のための広範なガイダンスとツール、
-
•
スケールアップされた新しい合成指示データセット、
-
•
オンポリシー生成による選好データのスケーリング、
-
•
検証可能な報酬を用いた強化学習、モデルの出力が正確であると検証された場合にのみ報酬を得るRL手法、
-
•
大規模モデルの成功的な実装を促進する高度なインフラストラクチャ、詳細、およびコード