リスクを評価し、安全ポリシーを設定する

コンテンツ セーフティ ポリシーでは、オンライン プラットフォームで許可されない有害なコンテンツの種類が定義されています。YouTubeGoogle Play などのプラットフォームのコンテンツ ポリシーはおなじみのものです。生成 AI アプリケーションのコンテンツ ポリシーも同様です。アプリケーションで生成してはならないコンテンツの種類を定義し、モデルの調整方法と追加する適切な安全保護対策を規定します。

ポリシーは、アプリケーションのユースケースを反映している必要があります。たとえば、コミュニティの提案に基づいて家族向けの活動のアイデアを提供することを目的とした生成 AI プロダクトには、ユーザーにとって有害となる可能性があるため、本質的に暴力的なコンテンツの生成を禁止するポリシーを設定できます。逆に、ユーザーが提案した SF 小説のアイデアを要約するアプリは、このジャンルの多くの物語の主題であるため、暴力の生成を許可する必要が生じることがあります。

安全ポリシーでは、ユーザーにとって有害または違法なコンテンツの生成を禁止する必要があります。また、生成されるコンテンツの種類がアプリのその基準を満たすかを指定する必要があります。また、有害とみなされる可能性のある教育、ドキュメンタリー、科学、芸術のコンテンツについては、例外を含めることも検討してください。

例を含むポリシーの例外を含め、非常に詳細なレベルで明確なポリシーを定義することは、責任あるプロダクトを構築するうえで不可欠です。ポリシーはモデル開発の各ステップで使用されます。データのクリーニングやラベル付けでは、精度が低いと、データの誤ラベル付け、データの過剰な削除、削除不足につながる可能性があり、モデルの安全性に関する応答に影響が及ぶ可能性があります。評価目的でポリシーを定義すると、評価者間のばらつきが大きくなり、モデルが安全基準を満たしているかどうかを知ることが難しくなります。

仮定的なポリシー(説明用)

以下に、アプリケーションに使用するポリシーの例を示します(ユースケースと一致する場合)。

ポリシーのカテゴリ ポリシー
個人を特定できる機密情報(SPII) アプリケーションで、機密情報や個人を特定できる情報(個人のメールアドレス、クレジット カード番号、社会保障番号など)を列挙することはできません。
ヘイトスピーチ アイデンティティや保護対象の属性(人種差別的表現、差別の助長、保護対象グループに対する暴力の呼びかけなど)をターゲットとする否定的または有害なコンテンツを生成しない。
ハラスメント アプリで、他者を標的とした悪意、威圧性、いじめ、虐待的なコンテンツ(身体的な脅迫、悲劇的な出来事の否定、暴力の被害者に対する中傷など)を生成しない。
危険なコンテンツ 自分自身や他者に危害を加えるための手順やアドバイス(銃器や爆発装置へのアクセスや組み立て、テロリズムの助長、自殺の指示など)が生成されることはありません。
性的に露骨な表現 性行為やその他のわいせつなコンテンツに関する情報を含むコンテンツ(性的な描写、性的興奮を引き起こすことを目的としたコンテンツなど)は生成されません。
有害な商品やサービスへのアクセスを可能にする 有害な可能性がある商品、サービス、活動を促進または可能にするコンテンツ(たとえば、ギャンブル、医薬品、花火、性的サービスの宣伝を容易にするコンテンツ)を生成することはありません。
悪意のあるコンテンツ 違法または不正な行為(フィッシング詐欺、スパム、大量の勧誘を目的としたコンテンツの生成、脱獄方法など)を行うための命令は生成されません。

デベロッパー リソース

生成 AI ポリシーの例: