A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
Abstract.
大規模言語モデル(LLM)は、ユーザーがこれらのモデルに意図された範囲を超えたタスクを実行するよう促す、オフトピックの誤用を受けやすい。現在のガードレールは、しばしば厳選された例やカスタム分類器に依存しているが、高い偽陽性率、限られた適応性、そして本番前に利用できない実世界のデータを必要とする非現実性という問題を抱えている。本稿では、これらの課題に対処する柔軟でデータフリーなガードレール開発手法を紹介する。問題空間を定性的に徹底的に定義し、これをLLMに渡して多様なプロンプトを生成することで、我々は発見的アプローチを上回るオフトピックガードレールのベンチマークと訓練のための合成データセットを構築する。さらに、ユーザープロンプトがシステムプロンプトに関連しているかどうかを分類するタスクとしてフレーム化することで、我々のガードレールは、ジェイルブレイクや有害なプロンプトを含む他の誤用カテゴリーにも効果的に一般化される。最後に、合成データセット111https://huggingface.co/datasets/gabrielchua/off-topicとオフトピックガードレールモデル222https://huggingface.co/collections/govtech/off-topic-guardrail-673838a62e4c661f248e81a4の両方をオープンソース化することで、本番前環境でのガードレール開発に貴重なリソースを提供し、LLMの安全性に関する将来の研究開発を支援する。
1. Introduction
GPT-4o (et al., 2024b)、Gemini 1.5 (et al., 2024a)、Llama 3 (Llama Team, 2024)などの大規模言語モデル(LLM)は、高度な自然言語処理能力を可能にすることで、様々な分野に革命をもたらしている。その応用は会話エージェントを超えて、文書抽出、レポート生成、ワークフロー自動化などのタスクにまで及んでいる (Brachman et al., 2024)。これらのモデルがソフトウェアアプリケーションや実世界のプロセスにますます統合されるにつれ、その適切な使用を確保することが極めて重要になっている。
LLMの展開に関連する潜在的リスクを軽減するために、モデルアライメント (Christiano et al., 2017)やガードレール (Dong et al., 2024)などの安全対策の開発に多大な努力が払われてきた。アライメント技術は、LLMが人間の価値観や意図に沿って動作することを確保することを目的としており、一方でガードレールは、モデルが望ましくない、または有害な出力を生成することを防ぐメカニズムである。これらの安全対策は、ユーザーの信頼を維持し、特に医療、金融、法律サービスなどの機密性の高い分野で規制遵守を満たすために不可欠である。
重要な課題の一つは、LLMが開発者によって設定されたシステムプロンプトによって定義される意図された範囲外のプロンプトに応答することを防ぐことである。特定のタスクを実行するようプロンプトされていても、LLMは無関係または意図しないプロンプトに対して応答を生成する可能性がある。例えば、最小限のプロンプトで医療政策チャットボットにPythonコードを生成させることができる。我々はこのようなプロンプトを「オフトピック」と呼ぶ(図1参照)。これは、有害または明示的に禁止されたコンテンツを引き出すことを目的とする「ジェイルブレイク」プロンプト (Shen et al., 2024)とは異なる。オフトピックプロンプトは無害な出力をもたらす可能性があるが、それでもモデルの意図された機能を損ない、コンプライアンスリスクをもたらす可能性がある。例えば、意図された範囲を超えた法的または医療的アドバイスを提供することなどである。
現在のガードレールメカニズムは、多くの場合、各ユースケースに対してポジティブ/ネガティブなプロンプトの厳選された例(AWS, [n. d.])やカスタム分類器(Azure, [n. d.])に依存しており、これらは既存のデータセットで訓練され、不適切な入力をフィルタリングしている。しかし、実際のユーザーデータは本番前には利用できず、初期段階では通常、潜在的な膨大な範囲の話題外プロンプトをカバーするのに十分なデータや例が不足している。他のガードレール実装では、トピックのブラックリストを定義する必要がある(Rebedea et al., 2023)が、本番前の段階では考慮すべきエッジケースが無限に存在する可能性があるため、これは困難である。この状況は3つの主要な課題を浮き彫りにしている:第一に、話題外プロンプトを効果的に検出できる汎用モデルの必要性、第二に、広範な既存のデータセットなしでそのような汎用モデルを開発すること、第三に、本番前の段階ではそのような実世界のデータが欠如していることである。
本稿では、これらの課題を考慮し、柔軟でデータフリーなガードレール開発方法論を導入し、LLMの話題外プロンプト検出の課題に適用する。問題空間を定性的に徹底的に定義し、LLMを活用して多様なプロンプトセットを生成することで、我々は話題外ガードレールのベンチマークと訓練リソースの両方として機能する合成データセットを構築する。この合成データでエンベディングまたはクロスエンコーダーモデルを微調整することで、偽陽性を減少させ、潜在的な採用を促進することにより、ヒューリスティックなアプローチを上回る性能を示す。さらに、これをユーザープロンプトがシステムプロンプトに関連しているかどうかを分類する問題として捉えることで、我々のガードレールはジェイルブレイクや有害なプロンプトを含む他の誤用カテゴリーにも効果的に一般化されることを見出した。
要約すると、我々の貢献は以下の4点である:
-
(1)
柔軟なガードレール開発方法論:我々は、本番前に合成データセットを生成してガードレールを開発する拡張性のあるアプローチを提案する。これにより、LLMアプリケーションの初期展開に強力なベースラインを提供する。
-
(2)
高性能な話題外れガードレール:我々は、合成データを用いて埋め込みモデルとクロスエンコーダーモデルを微調整することで、シンプルかつ効果的な分類器ガードレールを開発する。これらのモデルは既存のヒューリスティック手法を上回り、偽陽性を大幅に減少させ、話題外れのプロンプトに対する検出精度を向上させる。
-
(3)
複数の誤用カテゴリーへの一般化:検出タスクをシステムプロンプトの関連性の観点から捉えることで、我々の方法論は他の誤用タイプにも効果的に拡張される。
-
(4)
オープンソースリソース:我々は、合成データセットと話題外れガードレールモデルの両方をオープンソース化することでコミュニティに貢献し、LLMの安全性とコンプライアンスに関する将来の研究開発を促進する。
2. Related Work
2.1. Alignment
LLMが人間の価値観や意図に沿って動作することを保証することは、重要な研究分野である。アラインメント技術は、モデルの出力を望ましい行動に導きつつ、有害または意図しない応答を最小限に抑えることを目的としている。人間からのフィードバックによる強化学習(RLHF)(Christiano et al., 2017; Ouyang et al., 2024)や選好最適化アプローチ(Rafailov et al., 2024; Lu et al., 2024)などの手法が、人間の選好に基づいてモデルを微調整するために用いられてきた。先行研究では、システムプロンプトにユーザープロンプトよりも高い優先順位を与える指示の階層化(Wallace et al., 2024)も探求されている。この階層的アプローチにより、話題から外れたユーザープロンプトに直面しても、モデルが意図された機能を維持することが保証される。しかし、これらのアプローチは、意図せずにモデルの有用性を低下させる(すなわち、過度の拒否や偽陽性)可能性もある(Ganguli et al., 2022)。
2.2. Guardrails
ガードレールは、LLMが望ましくない、または有害な出力を生成することを防ぐためのもう一つのメカニズムである(Inan et al., 2023; Markov et al., 2023; Bonaldi et al., 2024)。アラインメントがモデルレベルの介入であるのに対し、我々はここでガードレールをLLMの入力と出力をスキャンする別個のフィルターとして定義する。このようなガードレールは、メインモデルとは独立して更新または置換することができ、新しいタイプの誤用に対する柔軟性と適応性を提供する。外部フィルターは、不適切なコンテンツを検出し緩和するために、ルールベースのシステム、機械学習分類器、またはその両方の組み合わせを使用することができる。
2.3. Synthetic Data
合成データ生成は、特に実世界のデータが不足している場合や機密性が高い場合、あるいは収集が困難な場合に、機械学習モデルの訓練と評価のための貴重な技術として台頭してきた(Liu et al., 2024)。これまでの研究では、自動ラベリング(Long et al., 2024)、Q&A/検索拡張生成(RAG)評価(Xu et al., 2024b)、指示対話生成(Wang et al., 2023)、あるいはLLMエージェント(Mitra et al., 2024)などの様々なタスクにおけるモデル訓練での合成データの有効性が探究されてきた。他の研究では、人間の介入を最小限に抑えるか、あるいは全く必要としない多様な合成データの生成についても探究されている(Xu et al., 2024a)。
3. Methodology
本節では、既存のデータセットに依存せずにLLMのガードレールを開発するための一般的なフレームワークを提示する。その後、このフレームワークを話題外プロンプト検出という特定の問題に適用する。
3.1. Guardrail Development Framework
LLMのための効果的なガードレールを開発することは、それらが意図された範囲内で動作し、誤用を防ぐために極めて重要である。一部のガードレールアプローチは、誤用例の厳選されたデータセットに依存しているが、これは潜在的な誤用シナリオの無限の多様性と、本番前のデータ不足のため、現実的ではない。この課題に対処するため、我々は柔軟でデータを必要としないガードレール開発フレームワーク(図2参照)を提案する。このフレームワークは以下のステップで構成される:
-
(1)
定性的問題分析とエッジケースの特定:我々は、対処すべき特定の誤用または安全性の問題を徹底的に分析することから始める。これには、モデルの意図された機能を理解し、潜在的な誤用や望ましくない動作を特定することが含まれる。潜在的な誤用ケースとエッジシナリオを探索することで、許容可能な入力と出力、および許容できない入力と出力の境界を定性的に定義することができる。
-
(2)
LLMプロンプティングによる合成データ生成:問題空間と望ましい入力/出力および望ましくない入力/出力の属性を記述した後、我々はLLMを活用して合成データを生成する。許容可能な相互作用と許容できない相互作用の種類を概説する詳細なプロンプトをLLMに提供する。合成データセットの多様性を確保するために、モデルの生成温度を上げ、ランダムなシード単語を提供することができる。モデルの出力が定義されたスキーマ内に収まるようにするため(例:各シナリオに対して5つの肯定的な例と5つの否定的な例を生成する)、構造化された出力や制約付き生成を採用することができる。これは複数のLLM APIプロバイダーが提供している。さらに、少数のショット例を含めることで、出力のリアリズムを向上させることができる。
-
(3)
モデルトレーニング:合成データセットが準備されたら、望ましくない入力を検出するための分類器のトレーニングに進む。問題は事実上テキスト分類問題となったため、トランスフォーマーベースのモデルがこのタスクに適している。
このフレームワークの利点は以下の通りである:
-
•
デプロイメント前の準備:我々は、アプリケーションをデプロイする前に分類器を構築できるようになり、最初から高いベースラインの安全対策が確実に実施される。アプリケーションがデプロイされた後、実際のプロンプトを収集して合成データセットを補強し、モデルをさらにトレーニングおよび改良することができる。
-
•
確率スコアリング:分類器モデルは予測の確率スコアを提供でき、閾値ベースの決定と入力の微妙な取り扱いを可能にする。例えば、開発者は確率スコアが中程度の範囲に収まる場合、テキストを完全にブロックするのではなく、修正したり警告ラベルを付けたりすることを選択できる。
3.2. Off-Topic Detection Problem
我々は、このフレームワークをLLMの対話におけるオフトピックプロンプトの検出という具体的なケースに適用する。
3.2.1. Problem Formulation
システムプロンプト()とユーザープロンプト()が与えられた場合、そのプロンプトがオフトピック()であるか、オントピック()であるかを検出したい。これは二値分類問題であり、関心のある分類指標(例えば、PR-AUC、F1)を最大化する最適な関数を見つけることを目指す。
ここでは、システムプロンプトに関連しないプロンプトをすべてオフトピックと定義する。この定義により、システムプロンプトは通常、明確に定義された閉じた形のタスクを示すべきである。
3.2.2. Data Generation
合成データセットを生成するために、我々はLLMを使用して、同じLLM生成内でシステムプロンプトとそれに対応するオントピックおよびオフトピックの多様な例を作成した。GPT 4o 2024-08-06とその構造化出力機能(OpenAI, 2024)を使用して、200万以上のシステムプロンプトとユーザープロンプトのペアを生成した。プロンプトの長さを変更し、ランダムなシード語を提供し、システムプロンプトの実例をランダム化することで多様性を確保した。
この合成データセットは、我々の分類器の訓練セットとしても、さまざまなガードレールアプローチを評価するベンチマークとしても機能する。このデータセットは、生成プロンプトとともにオープンソース化されている。
このデータセットの特筆すべき点は、LLMの実世界の企業アプリケーション(例:レポート生成、Q&A、文書抽出)をできる限り反映することを目指している点である。一部のベンチマークは、システムプロンプトで定義された情報漏洩を防ぐガードレールの能力をテストしている(Toyer et al., 2024)。我々は、そのような例がLLMの企業アプリケーションを十分に反映していないと考える。
3.2.3. Modelling
我々は、オフトピック検出問題に対して2つのモデリングアプローチを試験した(図3参照)。本稿の実験では、ハイパーパラメータの最適化は行わなかった。これらのモデルはオープンソース化されている。
1. ファインチューニングされたbi-encoder分類器。 我々は、軽量で長いコンテキスト長をサポートする事前学習済み埋め込みモデルから始めた。具体的には、jina-embeddings-v2-small-enモデル(Günther et al., 2024)333https://huggingface.co/jinaai/jina-embeddings-v2-small-enを使用した。このモデルは3300万のパラメータを持ち、最大8192トークンのシーケンス長をサポートしている。我々の実験では、シーケンス長を1024トークンに制限した。
このアーキテクチャでは、システムプロンプトとユーザープロンプトを別々に埋め込みモデルに入力し、各入力に対してアダプターレイヤーを訓練する。我々は、システムプロンプトがユーザープロンプトに注意を向け、その逆も可能になるようにクロスアテンションレイヤーを導入した。表現を得た後、アテンションプーリングを適用して両方のプロンプトの単一ベクトル表現を導出した。これらのベクトルを連結し、分類ヘッドを通して最終的なオントピックまたはオフトピックの予測を行った。
2. ファインチューニングされたCross-Encoder分類器。 我々は、事前学習済みのクロスエンコーダーモデル、具体的にはcross-encoder/stsb-roberta-base444https://huggingface.co/cross-encoder/stsb-roberta-baseもファインチューニングした。このアプローチでは、システムプロンプトとユーザープロンプトを直接単一のシーケンスに連結し、クロスエンコーダーモデルに入力する。その出力も分類ヘッドを通して二値分類を行う。
4. Experiments and Results
本節では、我々の微調整されたクラシファイアの性能を、合成データセットおよび他の外部データセットにおいて、様々なベースライン手法と比較して評価する。
4.1. Baselines
我々の微調整モデルのベンチマークとして、以下のベースラインアプローチと比較する:
-
(1)
コサイン類似度:ここでは、事前学習済みのbge-large-en-v1.5(Xiao et al., 2024)555https://huggingface.co/BAAI/bge-large-en-v1.5埋め込みモデルを使用して、システムプロンプトとユーザープロンプトの埋め込み間のコサイン類似度を計算する。
-
(2)
K近傍法(KNN):3つのトピック関連プロンプトと3つのトピック外プロンプト(つまり、6ショット学習)の埋め込みを使用して、単純なKNNクラシファイアを訓練した。
-
(3)
事前学習済みクロスエンコーダーモデル:関連性推定のために、微調整なしで事前学習済みクロスエンコーダーモデル(stsb-roberta-base)を使用した。
-
(4)
ColBERTモデル:関連性推定のためにColBERT v2モデル(Santhanam et al., 2022)666https://huggingface.co/colbert-ir/colbertv2.0を使用した。
-
(5)
LLMプロンプトエンジニアリング:モデルに無関係なプロンプトを単に無視するよう指示するため、システムプロンプトに接尾辞を追加した。
-
(6)
LLMゼロショット分類:ユーザープロンプトがシステムプロンプトに関連しているかをゼロショットで分類するために、より小規模なLLMを使用する。
4.2. Performance on Synthetic Data
我々は、合成データセットの保留部分で微調整された分類器モデルを評価する(表1参照)。ベースラインオプションの中では、ゼロショットLLM分類器が最も性能が高い。しかし、我々の微調整されたモデルは、精度(つまり、偽陽性が少ない)の点でそれを上回っている。これはガードレールにとって特に重要である。なぜなら、正当なプロンプトを誤ってブロックし、ユーザー体験に悪影響を与えることを避けたいからである。
我々はまた、プロンプトの長さによって分類性能がどのように変化するかを考察する(図4参照)。一般に、分類器は様々な長さのプロンプトに対してよく機能するが、短いプロンプトに対してはやや弱い。これは予想されることである。なぜなら、そもそも短いプロンプトには意味的情報が少ないからである。
我々はまた、モデルのキャリブレーションを評価する(図5参照)。確率スコアを提供することは、リスクベースのアプローチを可能にするために重要である。微調整されたクロスエンコーダーは、特にモデルがユーザープロンプトがオントピックであると非常に確信している場合(つまり、予測確率が0.2未満の場合)、よくキャリブレーションされていることがわかる。
Approach | Model | ROC-AUC | F1 | Precision | Recall |
---|---|---|---|---|---|
Fine-tuned cross-encoder classifier | stsb-roberta-base | 0.99 | 0.99 | 0.99 | 0.99 |
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 0.99 | 0.97 | 0.99 | 0.95 |
Cosine similarity | bge-large-en-v1.5 | 0.89 | 0.59 | 0.97 | 0.42 |
KNN | bge-large-en-v1 | 0.90 | 0.75 | 0.94 | 0.63 |
Pre-trained cross-encoder | stsb-roberta-base | 0.73 | 0.68 | 0.53 | 0.93 |
Pre-trained colbert | ColBERT v2 | 0.78 | 0.72 | 0.72 | 0.73 |
Prompt engineering | GPT 4o (2024-08-06) | - | 0.95 | 0.94 | 0.97 |
Prompt engineering | GPT 4o Mini (2024-07-18) | - | 0.91 | 0.85 | 0.91 |
Zero-shot classifier | GPT 4o Mini (2024-07-18) | 0.99 | 0.97 | 0.95 | 0.99 |
4.3. External Datasets
我々のモデルの堅牢性と汎化性をさらに評価するため、ジェイルブレイクと有害なプロンプトに特化して収集された外部データセットで評価を行った - JailbreakBench (Chao et al., 2024)、HarmBench (Mazeika et al., 2024)、TrustLLM (et al., 2024c)、そして(Foo and Khoo, 2024)に基づいてシンガポールの文脈に適応させた有害なプロンプトの内部データセットである。JailbreakBenchのみがジェイルブレイクと無害なプロンプトの両方を提供しているため、ROC-AUC、F1、精度、再現率を報告する。ジェイルブレイク/有害なプロンプトのみを含む他の外部データセットについては、再現率のみを報告する。定義上、このようなジェイルブレイクと有害なプロンプトは、企業のユースケースに使用される合理的なシステムプロンプトに対して話題がずれていると考えられる。そのため、前節で合成的に生成したシステムプロンプトからランダムにサンプリングしたものとペアにして評価を行った。我々のモデルがこれらの特定のタスクにおいても良好に汎化することが分かった(表2および表3を参照)。
Approach | Model | ROC-AUC | F1 | Precision | Recall |
---|---|---|---|---|---|
Fine-tuned cross-encoder classifier | stsb-roberta-base | 0.80 | 0.72 | 0.76 | 0.68 |
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 0.92 | 0.83 | 0.84 | 0.82 |
Benchmark | Approach | Model | Recall |
---|---|---|---|
HarmBench | Fine-tuned cross-encoder classifier | stsb-roberta-base | 0.83 |
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 0.99 | |
TrustLLM | Fine-tuned cross-encoder classifier | stsb-roberta-base | 0.78 |
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 0.97 | |
Localised harmful prompts | Fine-tuned cross-encoder classifier | stsb-roberta-base | 0.74 |
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 0.86 |
4.4. Inference Speed Benchmarking
最後に、これらのモデルは高速で軽量なガードレールとして意図されているため、我々は推論速度も考慮する。ここでは、1分間に処理できるシステムとユーザーのプロンプトペアの数で測定する。これらの測定はNVIDIA Tesla T4 GPUで実施された。表4に結果を示す。
Approach | Model | Processed Pairs Per Minute | Latency Per Pair (s) |
---|---|---|---|
Fine-tuned bi-encoder classifier | jina-embeddings-v2-small-en | 2,216 | 0.027 |
Fine-tuned cross-encoder classifier | stsb-roberta-base | 1,919 | 0.031 |
jina-embeddings-v2-small-enとstsb-roberta-baseの両モデルは、リアルタイムアプリケーションに適した実用的な推論速度を示しており、1分間に数千ペアを処理している。モデルの選択は、表1に示されているパフォーマンスと遅延のトレードオフを伴う。今後の研究では、異なるハードウェアプラットフォームでさらに高速な推論のためにこれらのモデルを最適化することが考えられる。
5. Discussion
我々の実験は、提案された柔軟かつデータフリーなガードレール開発手法が、オフトピックのプロンプトを検出する上で効果的であることを示している。ファインチューニングされた分類器は、精度と再現率の両面でベースライン手法を上回り、偽陽性を減少させ、適応性を向上させている。検出タスクをシステムプロンプトとユーザープロンプトの関連性評価として捉えることで、我々のガードレールは、ジェイルブレイクや有害なプロンプトを含む他の誤用カテゴリーにも効果的に一般化される。
5.1. Limitations
我々のアプローチには以下の限界がある:
-
(1)
合成データのバイアス: 実世界のデータが存在しない本番前の段階では合成データの使用が必要であるが、モデルはLLMによって生成された合成データで訓練されるため、LLM自体に存在するバイアスが導入される可能性がある。これにより、実世界のデータに対するモデルの性能に影響を与える可能性がある。
-
(2)
システムプロンプトの範囲: ガードレールの有効性は、システムプロンプトの具体性に依存する。オープンエンドまたは広範なシステムプロンプトの場合、関連性の判断がより困難になる。
-
(3)
言語と文化的文脈: 合成データは主に英語で生成されているため、モデルは英語以外の言語や異なる文化的文脈のプロンプトに対しては同等の性能を発揮しない可能性がある。
5.2. Deployment Considerations
このガードレール開発手法は、過去1年間、シンガポール政府技術庁(GovTech)内で使用され、特にデプロイメント前のデータが利用できない様々なLLMアプリケーションをサポートするための内部ガードレールスイートの開発に活用されてきた。特に、オフトピックガードレールは2024年9月以降、内部でデプロイされている。オフトピックプロンプト検出以外にも、この一般的な手法は最近、システムプロンプトの漏洩を検出する出力ガードレールの開発にも採用され、LLMが生成したテキストにシステムプロンプトに関する実質的な情報が含まれているかどうかを分類している。
一般的に、このオフトピックガードレールを特にデプロイする際の主な考慮事項は以下の通りである:
-
(1)
コンテキスト長: LLMの範囲と動作を定義するシステムプロンプトは、しばしば広範かつ詳細である。jina-embeddings-v2-small-enモデルは、stsb-roberta-baseよりもやや性能が劣るものの(表1参照)、はるかに長いコンテキスト長をサポートしており、複雑または長いプロンプトを持つアプリケーションに理想的である。一方、stsb-roberta-baseはオフトピック検出においてより高い精度を提供するが、コンテキストウィンドウがより制限されている。両モデルを提供することで、チームは特定のアプリケーション要件に基づいて精度とコンテキスト長のバランスを取ることができる。
-
(2)
オープンソースエコシステム: バイエンコーダーアプローチは、事前学習済み埋め込みモデルの堅牢なオープンソースエコシステムの恩恵を受け、柔軟性とアクセシビリティを向上させる。我々は、より新しく性能の高い埋め込みモデルにファインチューニングパイプラインを適用することができる。
-
(3)
実行可能性: 両モデルは十分に調整された確率スコアを提供し、モデルのユーザーは精度(偽陽性の最小化)や再現率(より多くのオフトピックプロンプトを正しく識別)など、特定の優先事項に合わせてしきい値を設定できる。
-
(4)
アクティブラーニング: 本稿は、実世界のデータが本番前に利用できないことを認識し、初期ガードレールを開発するために合成データを活用する手法を採用している。このアプローチにより、デプロイメント前に安全対策を確実に実施できる。デプロイメント後は、(Markov et al., 2023)で行われたように、この手法にアクティブラーニングを組み込むことができる。実世界のプロンプトを収集して訓練データセットを拡充し、継続的な改善と進化するユースケースへの適応を確保する。将来の作業には、我々の継続的な訓練とデプロイメントパイプラインへのアクティブラーニングの組み込みが含まれる。
6. Conclusion
我々は、柔軟かつデータを必要としないガードレール開発手法を導入し、それをLLMにおける話題外のプロンプトの検出に適用した。LLMを活用して合成データを生成し、検出タスクをプロンプトの関連性評価として捉えることで、既存のヒューリスティック手法を上回る分類器を開発した。我々のアプローチは他の誤用カテゴリーにも一般化可能である。最後に、合成データセットと話題外ガードレールモデルの両方をオープンソース化することで、LLMの安全性とコンプライアンスに関する将来の研究開発を促進し、コミュニティに貢献する。
総じて、我々の一般的な手法は、実世界のデータがまだ利用できないLLM展開の本番前段階において特に価値がある。展開前に堅牢なガードレールの開発を可能にすることで、LLMアプリケーションが最初から安全で信頼性の高いものとなることを保証する。
References
- (1)
- AWS ([n. d.]) AWS. [n. d.]. Block denied topics to help remove harmful content - Amazon Bedrock — docs.aws.amazon.com. https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails-denied-topics.html. [Accessed 12-11-2024].
- Azure ([n. d.]) Azure. [n. d.]. Custom categories in Azure AI Content Safety — learn.microsoft.com. https://learn.microsoft.com/en-us/azure/ai-services/content-safety/concepts/custom-categories?tabs=standard. [Accessed 12-11-2024].
- Bonaldi et al. (2024) Helena Bonaldi, Greta Damo, Nicolás Benjamín Ocampo, Elena Cabrio, Serena Villata, and Marco Guerini. 2024. Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen (Eds.). Association for Computational Linguistics, Miami, Florida, USA, 3446–3463. https://aclanthology.org/2024.emnlp-main.201
- Brachman et al. (2024) Michelle Brachman, Amina El-Ashry, Casey Dugan, and Werner Geyer. 2024. How Knowledge Workers Use and Want to Use LLMs in an Enterprise Context. In Extended Abstracts of the CHI Conference on Human Factors in Computing Systems (Honolulu, HI, USA) (CHI EA ’24). Association for Computing Machinery, New York, NY, USA, Article 189, 8 pages. https://doi.org/10.1145/3613905.3650841
- Chao et al. (2024) Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramer, Hamed Hassani, and Eric Wong. 2024. JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models. arXiv:2404.01318 [cs.CR] https://arxiv.org/abs/2404.01318
- Christiano et al. (2017) Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep Reinforcement Learning from Human Preferences. In Advances in Neural Information Processing Systems, I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Eds.), Vol. 30. Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2017/file/d5e2c0adad503c91f91df240d0cd4e49-Paper.pdf
- Dong et al. (2024) Yi Dong, Ronghui Mu, Yanghao Zhang, Siqi Sun, Tianle Zhang, Changshun Wu, Gaojie Jin, Yi Qi, Jinwei Hu, Jie Meng, Saddek Bensalem, and Xiaowei Huang. 2024. Safeguarding Large Language Models: A Survey. arXiv:2406.02622 [cs.CR] https://arxiv.org/abs/2406.02622
- et al. (2024a) Gemini Team et al. 2024a. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530 [cs.CL] https://arxiv.org/abs/2403.05530
- et al. (2024b) OpenAI et al. 2024b. GPT-4o System Card. arXiv:2410.21276 [cs.CL] https://arxiv.org/abs/2410.21276
- et al. (2024c) Yue Huang et al. 2024c. TrustLLM: Trustworthiness in Large Language Models. arXiv:2401.05561 [cs.CL] https://arxiv.org/abs/2401.05561
- Foo and Khoo (2024) Jessica Foo and Shaun Khoo. 2024. LionGuard: Building a Contextualized Moderation Classifier to Tackle Localized Unsafe Content. arXiv:2407.10995 [cs.CL] https://arxiv.org/abs/2407.10995
- Ganguli et al. (2022) Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield-Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, and Jack Clark. 2022. Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned. arXiv:2209.07858 [cs.CL] https://arxiv.org/abs/2209.07858
- Günther et al. (2024) Michael Günther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, and Han Xiao. 2024. Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents. arXiv:2310.19923 [cs.CL] https://arxiv.org/abs/2310.19923
- Inan et al. (2023) Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, and Madian Khabsa. 2023. Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations. arXiv:2312.06674 [cs.CL] https://arxiv.org/abs/2312.06674
- Liu et al. (2024) Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, and Andrew M. Dai. 2024. Best Practices and Lessons Learned on Synthetic Data. arXiv:2404.07503 [cs.CL] https://arxiv.org/abs/2404.07503
- Llama Team (2024) AI@Meta et al. Llama Team. 2024. The Llama 3 Herd of Models. arXiv:2407.21783 [cs.AI] https://arxiv.org/abs/2407.21783
- Long et al. (2024) Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, and Haobo Wang. 2024. On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey. arXiv:2406.15126 [cs.CL] https://arxiv.org/abs/2406.15126
- Lu et al. (2024) Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, and Robert Tjarko Lange. 2024. Discovering Preference Optimization Algorithms with and for Large Language Models. arXiv:2406.08414 [cs.LG] https://arxiv.org/abs/2406.08414
- Markov et al. (2023) Todor Markov, Chong Zhang, Sandhini Agarwal, Florentine Eloundou Nekoul, Theodore Lee, Steven Adler, Angela Jiang, and Lilian Weng. 2023. A holistic approach to undesired content detection in the real world. In Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence and Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence (AAAI’23/IAAI’23/EAAI’23). AAAI Press, Article 1683, 10 pages. https://doi.org/10.1609/aaai.v37i12.26752
- Mazeika et al. (2024) Mantas Mazeika, Long Phan, Xuwang Yin, Andy Zou, Zifan Wang, Norman Mu, Elham Sakhaee, Nathaniel Li, Steven Basart, Bo Li, David Forsyth, and Dan Hendrycks. 2024. HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal. arXiv:2402.04249 [cs.LG] https://arxiv.org/abs/2402.04249
- Mitra et al. (2024) Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, and Ahmed Awadallah. 2024. AgentInstruct: Toward Generative Teaching with Agentic Flows. arXiv:2407.03502 [cs.AI] https://arxiv.org/abs/2407.03502
- OpenAI (2024) OpenAI. 2024. Introducing Structured Outputs in the API. https://openai.com/index/introducing-structured-outputs-in-the-api/. Published August 6, 2024. [Accessed 16-11-2024].
- Ouyang et al. (2024) Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2024. Training language models to follow instructions with human feedback. In Proceedings of the 36th International Conference on Neural Information Processing Systems (New Orleans, LA, USA) (NIPS ’22). Curran Associates Inc., Red Hook, NY, USA, Article 2011, 15 pages.
- Rafailov et al. (2024) Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. 2024. Direct preference optimization: your language model is secretly a reward model. In Proceedings of the 37th International Conference on Neural Information Processing Systems (New Orleans, LA, USA) (NIPS ’23). Curran Associates Inc., Red Hook, NY, USA, Article 2338, 14 pages.
- Rebedea et al. (2023) Traian Rebedea, Razvan Dinu, Makesh Sreedhar, Christopher Parisien, and Jonathan Cohen. 2023. NeMo Guardrails: A Toolkit for Controllable and Safe LLM Applications with Programmable Rails. arXiv:2310.10501 [cs.CL] https://arxiv.org/abs/2310.10501
- Santhanam et al. (2022) Keshav Santhanam, Omar Khattab, Jon Saad-Falcon, Christopher Potts, and Matei Zaharia. 2022. ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction. arXiv:2112.01488 [cs.IR] https://arxiv.org/abs/2112.01488
- Shen et al. (2024) Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, and Yang Zhang. 2024. ”Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825 [cs.CR] https://arxiv.org/abs/2308.03825
- Toyer et al. (2024) Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor Darrell, Alan Ritter, and Stuart Russell. 2024. Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game. In The Twelfth International Conference on Learning Representations. https://openreview.net/forum?id=fsW7wJGLBd
- Wallace et al. (2024) Eric Wallace, Kai Xiao, Reimar Leike, Lilian Weng, Johannes Heidecke, and Alex Beutel. 2024. The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions. arXiv:2404.13208 [cs.CR] https://arxiv.org/abs/2404.13208
- Wang et al. (2023) Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, and Hannaneh Hajishirzi. 2023. Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560 [cs.CL] https://arxiv.org/abs/2212.10560
- Xiao et al. (2024) Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, and Jian-Yun Nie. 2024. C-Pack: Packed Resources For General Chinese Embeddings. arXiv:2309.07597 [cs.CL] https://arxiv.org/abs/2309.07597
- Xu et al. (2024b) Ran Xu, Hui Liu, Sreyashi Nag, Zhenwei Dai, Yaochen Xie, Xianfeng Tang, Chen Luo, Yang Li, Joyce C. Ho, Carl Yang, and Qi He. 2024b. SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains. arXiv:2410.17952 [cs.CL] https://arxiv.org/abs/2410.17952
- Xu et al. (2024a) Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, and Bill Yuchen Lin. 2024a. Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing. arXiv:2406.08464 [cs.CL] https://arxiv.org/abs/2406.08464