モデルを保護する

生成 AI プロダクトは比較的新しく、 その振る舞いは以前のソフトウェアよりもはるかに多様である可能性があります。安全保護対策 生成 AI 機能の不正使用からプロダクトを保護するには、 なります。このガイドでは、コンテンツ ポリシーへの準拠を セキュリティ チェッカー、透かしツールなど、生成 AI 対応プロダクトを保護できます。

コンテンツ ポリシーの遵守

事前に安全性確保のための調整を行っていても、 プロンプト テンプレートを使用して生成 AI モデルに 意図しない危害をもたらすコンテンツを出力する行為。生成 AI プロダクトでは、責任あるモデル動作を確保するために、入力と出力のフィルタリングが使用されることがあります。これらの モデルとの間で送受信されるデータが 通常はポリシーの詳細設定を行います。 安全トレーニングを使用して、コンテンツ分類モデルを作成します。

入力分類器は、入力分類器に直接関連する、または コンテンツ ポリシーに違反するコンテンツをモデルで生成する。入力フィルタは、コンテンツ ポリシーを回避しようとする攻撃をターゲットとすることがよくあります。

出力分類器はモデルの出力をフィルタし、安全性ポリシーに違反する生成コンテンツを検出します。コンテンツの不承認の行動を注意深くモニタリングすると、 入力を拡張または改善するために使用できる新しいクラスのプロンプトを表示する フィルタできます。

すべてのコンテンツ ポリシーを網羅する分類を設定することをおすすめします。 これは、既製の分類器を使用して実現できる場合があります。 カスタム分類に対応するカスタム分類を 選択できます。

バランスも重要です。過剰なフィルタリングは、意図しない損害をもたらしたり、アプリケーションの有用性を低下させたりするため、過剰なフィルタリングが発生している可能性があるケースを確認してください。詳細については、安全性評価ガイドをご覧ください。

コンテンツ ポリシーの既成の分類システム

既製のコンテンツ分類器は、コンテンツ分類システムに対する モデル固有の安全トレーニングを使用して、特定のリスクが ポリシー違反のタイプを選択できます。通常は次の 2 種類があります。

  1. 自己ホスト型の分類器ShieldGemma など)では、 ダウンロードしてホストし、Cloud Storage を含むさまざまなアーキテクチャに Google Cloud などのプラットフォーム、個人所有のハードウェア、一部の分類器 デバイス上でモバイルアプリを実行することもできます
  2. API ベースの分類システムは、さまざまなポリシーに対して大量の低レイテンシ分類を提供するサービスとして提供されます。Google は、 3 つのサービスを紹介します。
    • Checks AI Safety は、モデルの評価とモニタリングをサポートするコンプライアンス評価とダッシュボードを提供します。AI 安全性ツールはオープンベータ版です。ニュース、アクセス、デモについては、登録してください。
    • テキスト管理サービス: Google Cloud API テキストを分析して有害なカテゴリなどの安全性違反を検出します 利用料金が適用されます。
    • Perspective API は、仮想マシン(VM)の コメントが与える可能性のある影響をスコア付け あります。スコアは、各単語の確率分布に従って、 有害、脅迫、侮辱、または関連性のないコメント。

既製の分類システムがポリシー目標をどの程度満たしているかを評価し、失敗ケースを定性的に評価することが重要です。

カスタム コンテンツ ポリシー分類

既製コンテンツ ポリシー分類器は出発点として最適ですが、 次のような制限事項があります。

  • 固定のポリシー分類。すべてのコンテンツ ポリシーにマッピングされているわけではなく、すべてのコンテンツ ポリシーを網羅しているわけではありません。
  • GenAI を活用したアプリケーションがデプロイされる環境に適さないハードウェアと接続の要件。
  • 料金とその他の使用制限。

カスタム コンテンツ ポリシー分類システムは、こうした制限に対処する 1 つの方法です。アジャイル分類システムの方法は、効率的で柔軟なフレームワークを提供します。この方法では 安全を確保するため、必ず モデル チューニングの基本

SynthID テキスト透かしを使用して AI 生成コンテンツを特定する

生成 AI は、これまでにない規模で、非常に多様なコンテンツを生成できます。こうした使用のほとんどは正当な目的ですが、誤った情報や誤った帰属の問題につながる可能性があるという懸念があります。透かしは、このような潜在的な影響を軽減するための手法の一つです。人間には認識できない透かしを AI 生成のコンテンツに適用できます。検出モデルは任意のコンテンツにスコアを付け、透かしが入れられている可能性を示します。

SynthID は Google の DeepMind テクノロジーであり、透かしと デジタル透かしを直接埋め込むことで、AI 生成コンテンツの AI 生成の画像、音声、テキスト、動画。SynthID Text は、Hugging Face Transformers の本番環境で使用できます。アプリケーションで SynthID を使用する方法については、研究論文ドキュメントをご覧ください。

Google Cloud は SynthID 透かし機能を提供: その他のモダリティ(Imagen で生成された画像など) Vertex AI のお客様に提供しています

安全保護対策を設定する際のベスト プラクティス

安全性分類器を安全保護対策として使用することを強くおすすめします。ただし、コンテンツがブロックされている場合、ガードレールにより生成モデルがユーザーに何も生成しなくなる可能性があります。アプリケーションは、このケースを処理するように設計する必要があります。一般的な chatbot は、返信定型文(「申し訳ございませんが、私は言語モデルであり、このリクエストには対応できません」)を提供することで、この問題に対処します。

有用性と無害性の適切なバランスを見いだす: 間違えてしまう可能性があることを 理解することが重要です 両方を含む偽陽性(たとえば、出力を主張することは安全でない場合に 偽陰性(安全でないとラベル付けされない出力)が含まれます。方法 F1、適合率、再現率、AUC-ROC などの指標で分類器を評価する場合、 偽陽性と偽陽性のトレードオフを 検出できます。分類器のしきい値を変更することで、適切な安全性を確保しながら出力の過剰なフィルタリングを回避する理想的なバランスを見つけることができます。

分類器に意図しないバイアスがないか確認する: 次のような安全分類器 意図しないバイアスが伝播する 固定観念です。問題となる可能性のある動作について、アプリを適切に評価する必要があります。特に、コンテンツ セーフティ分類システムは、オンラインで冒とく的な表現の標的となることが多いアイデンティティに関連するコンテンツに対して過剰にトリガーされる可能性があります。たとえば、Perspective API が最初にリリースされたとき、モデルは特定のアイデンティティ グループを参照するコメントで高い有害性スコアを返しました(ブログ)。このように 個人情報に関する記述を含むコメントが 頻繁に標的にされるグループ(「黒人」、「イスラム教徒」、「フェミニスト」、 「女性」、「ゲイ」など)は、本質的に有害であることが多い。データセットが トレーニングの分類器では、特定のトピックを含むコメントに対して 分類器は、その単語を含むコメントをすべて一般化して考慮し、 安全でない可能性が高いと判断されました。Jigsaw チームがこの意図しないバイアスを軽減した方法をご覧ください。

デベロッパー向けリソース