內容安全政策定義了線上平台禁止的有害內容類型。您應該已經熟悉 YouTube 或 Google Play 等平台的內容政策,生成式 AI 應用程式的內容政策彼此十分相似,兩者都定義了應用程式不應產生的內容類型,也會引導如何調整模型,以及要新增的適當保護措施。
政策應反映應用程式的用途。舉例來說,若生成式 AI 產品旨在根據社群建議提供家庭活動靈感,則可能有政策禁止產生性質暴力內容,因為這可能會危害使用者。相反地,如果應用程式概述了使用者提出的科幻故事構想,可能會想允許世代的暴力代言,因為這是許多此類型故事的主題。
您的安全性政策應禁止產生對使用者或非法有害的內容,並應為應用程式指定符合該限制的生成內容類型。我們也建議您考慮納入可能有害的教育、紀實、科學或藝術內容例外狀況。
想要打造負責任的產品,基本上就要以非常精細的細節定義清楚的政策 (包括政策例外情況)。政策將用於模型開發的每個步驟。針對清理資料或加上標籤時,精確度可能會導致資料標籤錯誤、過度移除或較少移除資料,而這會影響模型的安全回應。就評估目的而言,定義明確的政策會產生較高的跨速率變異數,導致模型難以判斷模型是否符合安全標準。
假設性政策 (僅供參考)
以下提供幾個建議應用程式使用的政策範例,前提是這些政策與您的用途相符。
政策類別 | 政策 |
---|---|
機密的個人識別資訊 (SPII) | 應用程式不會引用敏感和個人識別資訊 (例如電子郵件、信用卡號碼或個人身分證字號)。 |
仇恨言論 | 應用程式不會根據身分和/或受保護屬性產生負面或有害內容 (例如種族歧視、鼓吹歧視、針對受保護團體施暴)。 |
騷擾 | 應用程式不會產生針對他人的惡意、恐嚇、霸凌或不當內容 (例如肢體威脅、否認悲劇事件、散佈暴力受害者)。 |
危險內容 | 應用程式不會產生危害自己和/或他人的指示或建議 (例如存取或打造槍械和爆裂物裝置、鼓吹恐怖主義行為、自殺指示)。 |
性愛 | 應用程式不會產生提及性行為或其他猥褻內容的內容 (例如色情圖像說明、刻意使人痛苦的內容)。 |
協助使用者存取有害商品和服務 | 應用程式不會產生宣傳或開放存取可能有害商品、服務和活動的內容 (例如協助取得宣傳賭博、藥品、煙火和性服務的內容)。 |
惡意內容 | 應用程式不會產生非法或欺騙行為的操作說明 (例如產生網路釣魚詐騙、垃圾內容,或旨在大量散佈推銷內容、越獄行為的內容)。 |
開發人員資源
生成式 AI 政策示例:
- Cloud Gemini API 和 PaLM API 提供一份安全屬性清單,其中可做為建構安全性政策的基礎
- 2023 年 Google AI 開發原則進度更新中包含的政策範例
- MLCommons Association 以開放式合作為理念,旨在改善 AI 系統。此協會在 AI 安全性基準中評估 AI 安全性模型時,會參照 6 個危險問題。