保護模型

生成式人工智慧 (GenAI) 產品屬於新興技術,其行為可能比早期形式的軟體更為多變。保護產品免於濫用生成式 AI 功能的安全防護措施必須採用同類型措施。本指南說明如何使用內容政策合規檢查工具和浮水印工具,保護支援 GenAI 的產品。

內容政策遵循

即使先前已透過調整確保安全提示範本,生成式 AI 也能派上用場 導致意外傷害的內容。生成式 AI 產品 仰賴輸入和輸出篩選,確保以負責任的方式執行模型。這些技術會檢查模型輸入或輸出的資料是否符合您的政策,通常會透過額外的安全訓練建立內容分類器模型。

輸入分類器用於篩選直接或可能 產生違反內容政策的內容。輸入資料 篩選器通常會找出試圖規避您內容的惡意攻擊 再檢查有關聯的允許政策

輸出分類器會篩選模型輸出內容,找出違反安全性政策的產生內容。仔細監控內容拒絕行為,即可找出可用於擴充或改善輸入篩選器的新類別提示。

建議您設定涵蓋所有內容政策的分類項。 方法是使用現成的分類器,或 您可能需要建立支援這項功能的自訂敏感內容類別 您的特定政策

餘額也是關鍵。過度篩選可能會造成意料之外的傷害,或降低應用程式的效用;請務必檢查可能會發生過度篩選的情況。詳情請參閱安全評估指南

現成內容政策分類項

現成的內容分類器可為模型的內在安全訓練提供額外一層防護,進一步降低特定類型政策違規的可能性。通常有兩種類型:

  1. 自架式分類器 (例如 ShieldGemma) 可下載並託管於各種架構,包括 Google Cloud 等雲端平台、私人硬體,而且某些分類器甚至可在行動應用程式裝置上執行。
  2. API 為基礎的分類器是以服務數量為主的服務, 依據各種政策實現低延遲分類。Google 提供三項可能會感興趣的服務:
    • Checks AI Safety 提供法規遵循評估功能 支援模型評估和監控AI 安全性工具目前處於公開測試階段,請註冊,取得最新消息、存取權限和示範。
    • 文字管理服務是 Google Cloud API,可分析文字是否違反安全性規定 (包括有害類別和敏感主題),並根據使用率進行限制。
    • Perspective API 是免費的 API,會運用機器學習模型評估留言對對話的影響程度。模型會提供一個分數 留言含有惡意、威脅、侮辱或離題的內容。

請務必評估現成分類器是否能符合政策目標,並以定性方式評估失敗案例。

自訂內容政策類別

現成內容政策分類器只是很好的開始 限制,包括:

  • 固定政策分類,可能無法對應或涵蓋所有內容政策。
  • 硬體和連線需求可能不適用於 部署生成式 AI 的應用程式
  • 定價和其他使用限制。

自訂內容政策分類器或許是解決這些限制的一種方法,而敏捷分類器方法則提供了一種高效且靈活的架構,可用於建立分類器。由於這個方法會基於安全考量調整模型,請務必參閱模型調整基本概念

使用 SynthID 文字浮水印辨識 AI 生成的內容

GenAI 可產生更廣泛的多元內容,規模超乎想像。雖然這類使用行為大多是為了合法目的,但仍有人擔心這會導致不實資訊和錯誤歸屬問題。浮水印是減少這類潛在影響的技術。浮水印 難以理解的內容可應用於 AI 生成內容 偵測模型可以為任意內容評分,以指出 已加上浮水印。

SynthID 是 Google DeepMind 的技術 直接在內容中嵌入數位浮水印,藉此辨識 AI 生成的內容 AI 生成的圖像、音訊、文字或影片SynthID Text 可用於 Hugging Face Transformers 的實際工作環境,請參閱研究論文說明文件,進一步瞭解如何在應用程式中使用 SynthID。

Google Cloud 為 Vertex AI 客戶提供 SynthID 浮水印功能,可用於其他模式,例如 Imagen 生成的圖像

設定安全防護機制的最佳做法

我們強烈建議您使用安全性分類器做為保護措施。不過,如果內容遭到封鎖,保護措施可能會導致生成式模型無法為使用者產生任何內容。應用程式必須設計為處理這種情況。大多數熱門的聊天機器人會提供罐頭回應 (「我是 很抱歉,這是語言模型,因此無法針對這項要求提供協助」)。

在實用性與無傷害之間找到平衡:使用 安全分類器,務必瞭解這些錯誤會出錯 包括兩個誤報 (例如,如果輸出內容不安全, 非) 和偽陰性 (如果輸出處於不安全狀態,就不會標示為不安全)。變更者: 利用 F1、精確度、喚回度和 AUC-ROC 等指標評估分類器 您可以決定在偽陽性和偽陽性之間 取捨的方式 負面錯誤。只要變更分類器門檻,您就能 避免過度篩選輸出內容,同時兼顧 適當的安全措施

檢查分類器是否有非預期偏誤:安全性分類器和其他機器學習模型一樣,可能會傳播非預期偏誤,例如社會文化刻板印象。應用程式需要接受適當的評估,以便找出可能有問題的行為。特別是,內容安全分類器可能會對與身分相關的內容過度觸發,因為這些內容經常在網路上遭到辱罵。例如,當 Perspective API 之前 才剛啟用模型,這個模型從留言中傳回較高的惡意分數 參照特定身分群組 (網誌)。這種過度觸發行為可能會發生,是因為經常遭到鎖定的群體 (例如「黑人」、「穆斯林」、「女權主義者」、「女性」、「同性戀者」等字詞) 的自我認同字詞,通常具有較高的有害性。如果用於訓練分類器的資料集,在含有特定字詞的留言中出現明顯不平衡的情況,分類器就可能會過度概括,並將含有這些字詞的所有留言視為可能不安全。請參閱 Jigsaw 團隊如何減輕這項非預期偏差。

開發人員資源