保護模型

生成式人工智慧 (GenAI) 產品屬於新興技術，其行為可能比早期形式的軟體更為多變。保護產品免於濫用生成式 AI 功能的安全防護措施必須採用同類型措施。本指南說明如何使用內容政策合規檢查工具和浮水印工具，保護支援 GenAI 的產品。

內容政策遵循

即使先前已透過調整確保安全，提示範本，生成式 AI 也能派上用場導致意外傷害的內容。生成式 AI 產品仰賴輸入和輸出篩選，確保以負責任的方式執行模型。這些技術會檢查模型輸入或輸出的資料是否符合您的政策，通常會透過額外的安全訓練建立內容分類器模型。

輸入分類器用於篩選直接或可能產生違反內容政策的內容。輸入資料篩選器通常會找出試圖規避您內容的惡意攻擊再檢查有關聯的允許政策

輸出分類器會篩選模型輸出內容，找出違反安全性政策的產生內容。仔細監控內容拒絕行為，即可找出可用於擴充或改善輸入篩選器的新類別提示。

建議您設定涵蓋所有內容政策的分類項。方法是使用現成的分類器，或您可能需要建立支援這項功能的自訂敏感內容類別您的特定政策

餘額也是關鍵。過度篩選可能會造成意料之外的傷害，或降低應用程式的效用；請務必檢查可能會發生過度篩選的情況。詳情請參閱安全評估指南。

現成內容政策分類項

現成的內容分類器可為模型的內在安全訓練提供額外一層防護，進一步降低特定類型政策違規的可能性。通常有兩種類型：

自架式分類器 (例如 ShieldGemma) 可下載並託管於各種架構，包括 Google Cloud 等雲端平台、私人硬體，而且某些分類器甚至可在行動應用程式裝置上執行。
以 API 為基礎的分類器是以服務數量為主的服務，依據各種政策實現低延遲分類。Google 提供三項可能會感興趣的服務：
- Checks AI Safety 提供法規遵循評估功能支援模型評估和監控AI 安全性工具目前處於公開測試階段，請註冊，取得最新消息、存取權限和示範。
- 文字管理服務是 Google Cloud API，可分析文字是否違反安全性規定 (包括有害類別和敏感主題)，並根據使用率進行限制。
- Perspective API 是免費的 API，會運用機器學習模型評估留言對對話的影響程度。模型會提供一個分數留言含有惡意、威脅、侮辱或離題的內容。

請務必評估現成分類器是否能符合政策目標，並以定性方式評估失敗案例。

自訂內容政策類別

現成內容政策分類器只是很好的開始限制，包括：

固定政策分類，可能無法對應或涵蓋所有內容政策。
硬體和連線需求可能不適用於部署生成式 AI 的應用程式
定價和其他使用限制。

自訂內容政策分類器或許是解決這些限制的一種方法，而敏捷分類器方法則提供了一種高效且靈活的架構，可用於建立分類器。由於這個方法會基於安全考量調整模型，請務必參閱模型調整基本概念。

使用 SynthID 文字浮水印辨識 AI 生成的內容

GenAI 可產生更廣泛的多元內容，規模超乎想像。雖然這類使用行為大多是為了合法目的，但仍有人擔心這會導致不實資訊和錯誤歸屬問題。浮水印是減少這類潛在影響的技術。浮水印難以理解的內容可應用於 AI 生成內容偵測模型可以為任意內容評分，以指出已加上浮水印。

SynthID 是 Google DeepMind 的技術直接在內容中嵌入數位浮水印，藉此辨識 AI 生成的內容 AI 生成的圖像、音訊、文字或影片SynthID Text 可用於 Hugging Face Transformers 的實際工作環境，請參閱研究論文和說明文件，進一步瞭解如何在應用程式中使用 SynthID。

Google Cloud 為 Vertex AI 客戶提供 SynthID 浮水印功能，可用於其他模式，例如 Imagen 生成的圖像。

設定安全防護機制的最佳做法

我們強烈建議您使用安全性分類器做為保護措施。不過，如果內容遭到封鎖，保護措施可能會導致生成式模型無法為使用者產生任何內容。應用程式必須設計為處理這種情況。大多數熱門的聊天機器人會提供罐頭回應 (「我是很抱歉，這是語言模型，因此無法針對這項要求提供協助」)。

在實用性與無傷害之間找到平衡：使用安全分類器，務必瞭解這些錯誤會出錯包括兩個誤報 (例如，如果輸出內容不安全，非) 和偽陰性 (如果輸出處於不安全狀態，就不會標示為不安全)。變更者：利用 F1、精確度、喚回度和 AUC-ROC 等指標評估分類器您可以決定在偽陽性和偽陽性之間取捨的方式負面錯誤。只要變更分類器門檻，您就能避免過度篩選輸出內容，同時兼顧適當的安全措施

檢查分類器是否有非預期偏誤：安全性分類器和其他機器學習模型一樣，可能會傳播非預期偏誤，例如社會文化刻板印象。應用程式需要接受適當的評估，以便找出可能有問題的行為。特別是，內容安全分類器可能會對與身分相關的內容過度觸發，因為這些內容經常在網路上遭到辱罵。例如，當 Perspective API 之前才剛啟用模型，這個模型從留言中傳回較高的惡意分數參照特定身分群組 (網誌)。這種過度觸發行為可能會發生，是因為經常遭到鎖定的群體 (例如「黑人」、「穆斯林」、「女權主義者」、「女性」、「同性戀者」等字詞) 的自我認同字詞，通常具有較高的有害性。如果用於訓練分類器的資料集，在含有特定字詞的留言中出現明顯不平衡的情況，分類器就可能會過度概括，並將含有這些字詞的所有留言視為可能不安全。請參閱 Jigsaw 團隊如何減輕這項非預期偏差。

開發人員資源

SynthID：用於辨識 AI 生成內容並加上浮水印的工具。
檢查 AI 安全性：AI 安全性法規遵循。
Perspective API：用於識別惡意內容。
文字內容審核服務：適用於 Google Cloud 客戶。