入出力の安全保護対策を作成する

生成 AI アプリケーションでは多くの場合、入力データと出力データのフィルタリング、 セーフガードと呼ばれることもあります。これは、責任あるモデルが 確認します。入力と出力のフィルタリングでは、送受信されるデータを モデルの出力が、設定したポリシーに準拠している。 定義できます。入力分類器は通常、フィルタ処理に使用される アプリケーションで使用することを想定していないコンテンツ モデルが安全ポリシーに違反する原因になります。入力フィルタがターゲットになることが多い コンテンツ ポリシーを回避しようとする敵対的攻撃。出力 分類器は安全トレーニングのさらなるフィルタと連携 安全ポリシーに違反する可能性のある生成された出力をキャッチします。 すべてのコンテンツ ポリシーを網羅する分類を設定することをおすすめします。

あらかじめ用意された安全保護対策

安全性確保のための事前調整と適切に設計されたプロンプト テンプレートでも、 意図しない害を及ぼすコンテンツをモデルが出力する可能性は依然として残ります。 既製のコンテンツ分類器を使用すると、コンテンツに対する保護をさらに強化できます。 特定の種類のポリシー違反について、この可能性をさらに改善できます。

ShieldGemma

ShieldGemma は、指示用にチューニングされた既製のオープンなセットです。 Gemma 2 をベースに構築されたコンテンツ分類モデルに重み付けを適用し、 ユーザー提供コンテンツ、モデル生成コンテンツ、混合コンテンツのいずれが コンテンツの安全性に関するポリシー。ShieldGemma は 4 つの有害(性的 コンテンツ、危険なコンテンツ、ハラスメント、ヘイトスピーチなど)に分類され、 サイズクラスのバリアント(2B、9B、27B パラメータ)が用意されており、 速度、パフォーマンス、一般化可能性のバランスを取り、 説明します。詳細については、モデルカードをご覧ください。 違いを確認できます

ShieldGemma でモデルを保護する

Google Colab(Keras)を起動する Google Colab(Transformers)を起動する

ShieldGemma モデルは、次のフレームワークで使用できます。

API ベース

Google は、コンテンツの安全性を確保するために API ベースの分類器を提供しています。 システム入出力をフィルタ:

  • Perspective API は、仮想マシン(VM)の コメントが与える可能性のある影響をスコア付け あります。スコアは、特定の単語が特定のケースに 有害、脅迫、侮辱、または関連性のないコメント。
  • テキスト管理サービスは Google Cloud API であり、 特定の使用量上限未満で使用できる ML を使用して安全性のリストと照らし合わせてドキュメントを分析し 有害な可能性があるさまざまなカテゴリやトピックなど、 機密情報と見なされる可能性があります。

既製の分類器がポリシーを満たしているかどうかを評価することが重要です 失敗したケースを定性的に評価しますまた フィルタを過度に使用すると、意図しない害が及ぶだけでなく、 つまり、アプリケーションの有用性を フィルタが過剰になっている場合がありますこのような評価の詳細については、 モデルとシステムの安全性を評価するをご覧ください。

カスタマイズされた安全性分類器を作成する

既製の安全保護対策がクラウドに適さない理由はいくつかありますが、 たとえば、サポートされていないポリシーがある場合や、 システムに影響を及ぼしていることが観察されたデータで、安全保護対策をさらに調整します。イン この場合、アジャイル分類器を使用すると、 次のようなモデルをチューニングして独自の安全保護対策を作成するための柔軟なフレームワーク Gemma をニーズに合わせて。また、基盤となるインフラストラクチャを 理解することが重要です。

Gemma Agile 分類器のチュートリアル

Codelab を開始 Google Colab を起動する

アジャイル分類器の codelabチュートリアルLoRA を使用して Gemma を微調整する コンテンツ モデレーション分類器として機能するモデルを KerasNLP に ライブラリです。このコードは、ETHOS データセットから 200 のサンプルのみを使用して、 0.80 の F1 スコアROC-AUC スコアを達成 0.78 であり、最先端のモデルに匹敵する リーダーボードの結果。800 の例でトレーニングすると Gemma ベースのアジャイル分類器ですが、 は F1 スコア 83.74、ROC-AUC スコア 88.17 を達成しています。必要に応じて この分類器をさらに改良したり、独自の分類器を作成したりするためのチュートリアルの手順 カスタム安全分類器の安全保護対策を サポートしています

安全保護対策の設定に関するベスト プラクティス

安全分類器として安全分類を使用することを強くおすすめします。ただし、 ガードレールにより、生成モデルでは、特定の目的のために 表示されなくなります。アプリはこの状況に対処できるように設計する必要がある あります。最も一般的な chatbot は、定型的な回答(「私は 申し訳ございません。私は言語モデルであるため、このリクエストには対応できません」)。

有用性と無害性の適切なバランスを見いだす: 間違えてしまう可能性があることを 理解することが重要です 両方を含む偽陽性(たとえば、出力を主張することは安全でない場合に 偽陰性(安全でないとラベル付けされない出力)が含まれます。方法 F1、適合率、再現率、AUC-ROC などの指標で分類器を評価する場合、 偽陽性と偽陽性のトレードオフを 検出できます。分類器のしきい値を変更することで 理想的なバランスです。出力の過剰なフィルタリングを回避しつつ、 適切な安全を確保します。

分類器に意図しないバイアスがないか確認する: 次のような安全分類器 意図しないバイアスが伝播する 固定観念です。アプリケーションを適切に評価して、潜在的なリスクや 特定することです。特に、コンテンツ安全性分類器は ID に関連するコンテンツで頻繁にトリガーされる オンラインでの攻撃的な表現の標的です。たとえば Perspective API が コメントでより有害性スコアを高くしたモデルが 特定の ID グループを参照しています(ブログ)。このように 個人情報に関する記述を含むコメントが 頻繁に標的にされるグループ(「黒人」、「イスラム教徒」、「フェミニスト」、 「女性」、「ゲイ」など)は、本質的に有害であることが多い。データセットが トレーニングの分類器では、特定のトピックを含むコメントに対して 分類器は、その単語を含むコメントをすべて一般化して考慮し、 安全でない可能性が高いと判断されました。Jigsaw チームの事例を読む 軽減したということです。

デベロッパー向けリソース