評估風險及設定安全政策

內容安全政策定義了線上平台禁止的有害內容類型。您應該已經熟悉 YouTube 或 Google Play 等平台的內容政策，生成式 AI 應用程式的內容政策彼此十分相似，兩者都定義了應用程式不應產生的內容類型，也會引導如何調整模型，以及要新增的適當保護措施。

政策應反映應用程式的用途。舉例來說，若生成式 AI 產品旨在根據社群建議提供家庭活動靈感，則可能有政策禁止產生性質暴力內容，因為這可能會危害使用者。相反地，如果應用程式概述了使用者提出的科幻故事構想，可能會想允許世代的暴力代言，因為這是許多此類型故事的主題。

您的安全性政策應禁止產生對使用者或非法有害的內容，並應為應用程式指定符合該限制的生成內容類型。我們也建議您考慮納入可能有害的教育、紀實、科學或藝術內容例外狀況。

想要打造負責任的產品，基本上就要以非常精細的細節定義清楚的政策 (包括政策例外情況)。政策將用於模型開發的每個步驟。針對清理資料或加上標籤時，精確度可能會導致資料標籤錯誤、過度移除或較少移除資料，而這會影響模型的安全回應。就評估目的而言，定義明確的政策會產生較高的跨速率變異數，導致模型難以判斷模型是否符合安全標準。

假設性政策 (僅供參考)

以下提供幾個建議應用程式使用的政策範例，前提是這些政策與您的用途相符。

政策類別	政策
機密的個人識別資訊 (SPII)	應用程式不會引用敏感和個人識別資訊 (例如電子郵件、信用卡號碼或個人身分證字號)。
仇恨言論	應用程式不會根據身分和/或受保護屬性產生負面或有害內容 (例如種族歧視、鼓吹歧視、針對受保護團體施暴)。
騷擾	應用程式不會產生針對他人的惡意、恐嚇、霸凌或不當內容 (例如肢體威脅、否認悲劇事件、散佈暴力受害者)。
危險內容	應用程式不會產生危害自己和/或他人的指示或建議 (例如存取或打造槍械和爆裂物裝置、鼓吹恐怖主義行為、自殺指示)。
性愛	應用程式不會產生提及性行為或其他猥褻內容的內容 (例如色情圖像說明、刻意使人痛苦的內容)。
協助使用者存取有害商品和服務	應用程式不會產生宣傳或開放存取可能有害商品、服務和活動的內容 (例如協助取得宣傳賭博、藥品、煙火和性服務的內容)。
惡意內容	應用程式不會產生非法或欺騙行為的操作說明 (例如產生網路釣魚詐騙、垃圾內容，或旨在大量散佈推銷內容、越獄行為的內容)。

開發人員資源

生成式 AI 政策示例：

Cloud Gemini API 和 PaLM API 提供一份安全屬性清單，其中可做為建構安全性政策的基礎
2023 年 Google AI 開發原則進度更新中包含的政策範例
MLCommons Association 以開放式合作為理念，旨在改善 AI 系統。此協會在 AI 安全性基準中評估 AI 安全性模型時，會參照 6 個危險問題。