モデルを保護する

生成 AI プロダクトは比較的新しく、その振る舞いは以前のソフトウェアよりもはるかに多様である可能性があります。安全保護対策生成 AI 機能の不正使用からプロダクトを保護するには、なります。このガイドでは、コンテンツポリシーへの準拠をセキュリティチェッカー、透かしツールなど、生成 AI 対応プロダクトを保護できます。

コンテンツポリシーの遵守

事前に安全性確保のための調整を行っていても、プロンプトテンプレートを使用して生成 AI モデルに意図しない危害をもたらすコンテンツを出力する行為。生成 AI プロダクトでは、責任あるモデル動作を確保するために、入力と出力のフィルタリングが使用されることがあります。これらのモデルとの間で送受信されるデータが通常はポリシーの詳細設定を行います。安全トレーニングを使用して、コンテンツ分類モデルを作成します。

入力分類器は、入力分類器に直接関連する、またはコンテンツポリシーに違反するコンテンツをモデルで生成する。入力フィルタは、コンテンツポリシーを回避しようとする攻撃をターゲットとすることがよくあります。

出力分類器はモデルの出力をフィルタし、安全性ポリシーに違反する生成コンテンツを検出します。コンテンツの不承認の行動を注意深くモニタリングすると、入力を拡張または改善するために使用できる新しいクラスのプロンプトを表示するフィルタできます。

すべてのコンテンツポリシーを網羅する分類を設定することをおすすめします。これは、既製の分類器を使用して実現できる場合があります。カスタム分類に対応するカスタム分類を選択できます。

バランスも重要です。過剰なフィルタリングは、意図しない損害をもたらしたり、アプリケーションの有用性を低下させたりするため、過剰なフィルタリングが発生している可能性があるケースを確認してください。詳細については、安全性評価ガイドをご覧ください。

コンテンツポリシーの既成の分類システム

既製のコンテンツ分類器は、コンテンツ分類システムに対するモデル固有の安全トレーニングを使用して、特定のリスクがポリシー違反のタイプを選択できます。通常は次の 2 種類があります。

自己ホスト型の分類器（ShieldGemma など）では、ダウンロードしてホストし、Cloud Storage を含むさまざまなアーキテクチャに Google Cloud などのプラットフォーム、個人所有のハードウェア、一部の分類器デバイス上でモバイルアプリを実行することもできます
API ベースの分類システムは、さまざまなポリシーに対して大量の低レイテンシ分類を提供するサービスとして提供されます。Google は、 3 つのサービスを紹介します。
- Checks AI Safety は、モデルの評価とモニタリングをサポートするコンプライアンス評価とダッシュボードを提供します。AI 安全性ツールはオープンベータ版です。ニュース、アクセス、デモについては、登録してください。
- テキスト管理サービス: Google Cloud API テキストを分析して有害なカテゴリなどの安全性違反を検出します利用料金が適用されます。
- Perspective API は、仮想マシン（VM）のコメントが与える可能性のある影響をスコア付けあります。スコアは、各単語の確率分布に従って、有害、脅迫、侮辱、または関連性のないコメント。

既製の分類システムがポリシー目標をどの程度満たしているかを評価し、失敗ケースを定性的に評価することが重要です。

カスタムコンテンツポリシー分類

既製コンテンツポリシー分類器は出発点として最適ですが、次のような制限事項があります。

固定のポリシー分類。すべてのコンテンツポリシーにマッピングされているわけではなく、すべてのコンテンツポリシーを網羅しているわけではありません。
GenAI を活用したアプリケーションがデプロイされる環境に適さないハードウェアと接続の要件。
料金とその他の使用制限。

カスタムコンテンツポリシー分類システムは、こうした制限に対処する 1 つの方法です。アジャイル分類システムの方法は、効率的で柔軟なフレームワークを提供します。この方法では安全を確保するため、必ずモデルチューニングの基本。

SynthID テキスト透かしを使用して AI 生成コンテンツを特定する

生成 AI は、これまでにない規模で、非常に多様なコンテンツを生成できます。こうした使用のほとんどは正当な目的ですが、誤った情報や誤った帰属の問題につながる可能性があるという懸念があります。透かしは、このような潜在的な影響を軽減するための手法の一つです。人間には認識できない透かしを AI 生成のコンテンツに適用できます。検出モデルは任意のコンテンツにスコアを付け、透かしが入れられている可能性を示します。

SynthID は Google の DeepMind テクノロジーであり、透かしとデジタル透かしを直接埋め込むことで、AI 生成コンテンツの AI 生成の画像、音声、テキスト、動画。SynthID Text は、Hugging Face Transformers の本番環境で使用できます。アプリケーションで SynthID を使用する方法については、研究論文とドキュメントをご覧ください。

Google Cloud は SynthID 透かし機能を提供: その他のモダリティ（Imagen で生成された画像など） Vertex AI のお客様に提供しています

安全保護対策を設定する際のベストプラクティス

安全性分類器を安全保護対策として使用することを強くおすすめします。ただし、コンテンツがブロックされている場合、ガードレールにより生成モデルがユーザーに何も生成しなくなる可能性があります。アプリケーションは、このケースを処理するように設計する必要があります。一般的な chatbot は、返信定型文（「申し訳ございませんが、私は言語モデルであり、このリクエストには対応できません」）を提供することで、この問題に対処します。

有用性と無害性の適切なバランスを見いだす: 間違えてしまう可能性があることを理解することが重要です両方を含む偽陽性（たとえば、出力を主張することは安全でない場合に偽陰性（安全でないとラベル付けされない出力）が含まれます。方法 F1、適合率、再現率、AUC-ROC などの指標で分類器を評価する場合、偽陽性と偽陽性のトレードオフを検出できます。分類器のしきい値を変更することで、適切な安全性を確保しながら出力の過剰なフィルタリングを回避する理想的なバランスを見つけることができます。

分類器に意図しないバイアスがないか確認する: 次のような安全分類器意図しないバイアスが伝播する固定観念です。問題となる可能性のある動作について、アプリを適切に評価する必要があります。特に、コンテンツセーフティ分類システムは、オンラインで冒とく的な表現の標的となることが多いアイデンティティに関連するコンテンツに対して過剰にトリガーされる可能性があります。たとえば、Perspective API が最初にリリースされたとき、モデルは特定のアイデンティティグループを参照するコメントで高い有害性スコアを返しました（ブログ）。このように個人情報に関する記述を含むコメントが頻繁に標的にされるグループ（「黒人」、「イスラム教徒」、「フェミニスト」、「女性」、「ゲイ」など）は、本質的に有害であることが多い。データセットがトレーニングの分類器では、特定のトピックを含むコメントに対して分類器は、その単語を含むコメントをすべて一般化して考慮し、安全でない可能性が高いと判断されました。Jigsaw チームがこの意図しないバイアスを軽減した方法をご覧ください。

デベロッパー向けリソース

SynthID: AI 生成コンテンツに透かしを入れて識別するためのツール。
AI の安全性をチェック: AI の安全性に関するコンプライアンス。
Perspective API: 有害なコンテンツを特定します。
テキスト管理サービス: Google Cloud のお客様向け。

モデルを保護する

コンテンツ ポリシーの遵守

コンテンツ ポリシーの既成の分類システム

カスタム コンテンツ ポリシー分類