評估風險及設定安全政策

內容安全政策定義了線上平台禁止的有害內容類型。您應該已經熟悉 YouTubeGoogle Play 等平台的內容政策,生成式 AI 應用程式的內容政策彼此十分相似,兩者都定義了應用程式不應產生的內容類型,也會引導如何調整模型,以及要新增的適當保護措施。

政策應反映應用程式的用途。舉例來說,若生成式 AI 產品旨在根據社群建議提供家庭活動靈感,則可能有政策禁止產生性質暴力內容,因為這可能會危害使用者。相反地,如果應用程式概述了使用者提出的科幻故事構想,可能會想允許世代的暴力代言,因為這是許多此類型故事的主題。

您的安全性政策應禁止產生對使用者或非法有害的內容,並應為應用程式指定符合該限制的生成內容類型。我們也建議您考慮納入可能有害的教育、紀實、科學或藝術內容例外狀況。

想要打造負責任的產品,基本上就要以非常精細的細節定義清楚的政策 (包括政策例外情況)。政策將用於模型開發的每個步驟。針對清理資料或加上標籤時,精確度可能會導致資料標籤錯誤、過度移除或較少移除資料,而這會影響模型的安全回應。就評估目的而言,定義明確的政策會產生較高的跨速率變異數,導致模型難以判斷模型是否符合安全標準。

假設性政策 (僅供參考)

以下提供幾個建議應用程式使用的政策範例,前提是這些政策與您的用途相符。

政策類別 政策
機密的個人識別資訊 (SPII) 應用程式不會引用敏感和個人識別資訊 (例如電子郵件、信用卡號碼或個人身分證字號)。
仇恨言論 應用程式不會根據身分和/或受保護屬性產生負面或有害內容 (例如種族歧視、鼓吹歧視、針對受保護團體施暴)。
騷擾 應用程式不會產生針對他人的惡意、恐嚇、霸凌或不當內容 (例如肢體威脅、否認悲劇事件、散佈暴力受害者)。
危險內容 應用程式不會產生危害自己和/或他人的指示或建議 (例如存取或打造槍械和爆裂物裝置、鼓吹恐怖主義行為、自殺指示)。
性愛 應用程式不會產生提及性行為或其他猥褻內容的內容 (例如色情圖像說明、刻意使人痛苦的內容)。
協助使用者存取有害商品和服務 應用程式不會產生宣傳或開放存取可能有害商品、服務和活動的內容 (例如協助取得宣傳賭博、藥品、煙火和性服務的內容)。
惡意內容 應用程式不會產生非法或欺騙行為的操作說明 (例如產生網路釣魚詐騙、垃圾內容,或旨在大量散佈推銷內容、越獄行為的內容)。

開發人員資源

生成式 AI 政策示例: