建立輸入和輸出保護措施

生成式 AI 應用程式通常需要篩選輸入和輸出資料 有時也稱為「安全守衛」,協助確保以負責任的方式執行模型 行為輸入和輸出篩選技術會檢查輸入或輸出的資料 將符合您的政策 您需要定義應用程式所需的值輸入分類器通常會用來篩選 不應在應用程式中使用的內容,也可能是 可能導致模型違反安全政策輸入篩選器通常鎖定目標 試圖規避內容政策的對抗攻擊。輸出孔類型 分類器可與安全訓練進階篩選器搭配使用 模型輸出內容,擷取可能違反安全政策的輸出內容。 建議您設定涵蓋所有內容政策的分類項。

現成的保護措施

即使先前已調整安全性,並採用設計完善的提示範本, 您的模型還是有可能輸出造成意外傷害的內容 現成的內容分類器可為以下項目增添一道防護: 可以進一步突顯這類違規行為的潛在價值。

ShieldGemma

ShieldGemma 是一組現成的開放式解說 針對以 Gemma 2 為基礎的內容分類器模型, 判斷使用者提供、模型生成或混合內容是否違反 內容安全政策。ShieldGemma 經過訓練,可辨識四種危害 (色情) 內容、危險內容、騷擾和仇恨言論) 的三種類型 大小類別變化版本 (2B、9B 和 27B 參數) 都可讓您 在速度、效能和可一般性之間取得平衡,以滿足您在 可能面臨擴充性、監控、持續整合 和部署等方面的挑戰如要進一步瞭解模型資訊卡,請參閱模型資訊卡。 提供差異

使用 ShieldGemma 保護模型

啟動 Google Colab (Keras) 啟動 Google Colab (Transformer)

你可以在下列架構中使用 ShieldGemma 模型。

以 API 為基礎

Google 提供以 API 為基礎的內容安全分類器,可用來 篩選系統輸入和輸出內容:

  • Perspective API 是採用機器技術的免費 API 機器學習模型,為留言可能帶來的正面影響評分 對話。模型會提供一個分數 留言包含惡意、威脅、侮辱或離題的內容。
  • 文字管理服務是 Google Cloud API, 用量須低於特定限制,以及 運用機器學習技術,根據安全清單來分析文件 包括各種可能有害的類別和 都屬於敏感內容

請務必評估現成分類器是否合乎您的政策 ,並透過質性評估失敗案例。此外, 請注意,過度篩選不但可能導致意外傷害 應用程式的公用程式,因此您也必須檢閱 過度篩選的情況如要進一步瞭解這類評估 方法,請參閱評估模型和系統以確保安全

建立自訂安全分類器

現成的保護措施有許多原因 用途包括提供不支援的政策,或是想要 經觀察到的資料影響系統能進一步調整保護措施。於 在此情況下,靈活的分類器會提供效率更高的分類器, 靈活的架構,以便藉由調整模型來建立自訂保護措施,例如 Gemma,滿足你的需求。同時讓你完全掌控 部署方式

Gemma Agile 分類器教學課程

啟動程式碼研究室 啟動 Google Colab

以下介紹靈活的分類器:codelab 教學課程使用 LoRA 微調 Gemma 使用 KerasNLP 做為內容審核分類器 資源庫。我們只使用 ETHOS 資料集中的 200 個範例, 分類器的 F1 分數為 0.80,ROC-AUC 分數 與 0.78 相比,這與最先進的 排行榜結果。如要訓練 800 個樣本 例如排行榜上的其他分類器,Gemma 中具有敏捷性分類工具 獲得 F1 分數 83.74,ROC-AUC 分數為 88.17。您可以調整 教學課程,瞭解如何進一步修正這個分類器,或是自行建立 以及由自訂安全分類器保護措施所組成

設定保護措施的最佳做法

強烈建議您使用安全分類器做為保護措施。不過 以免生成式模型 使用者也會看到這個按鈕應用程式需要設計來因應這種情況 確認是否屬於此情況大多數熱門的聊天機器人會提供罐頭回應 (「我是 很抱歉,這是語言模型,因此無法針對這項要求提供協助」)。

在實用性與無害性之間取得平衡:使用 安全分類器,務必瞭解這些錯誤會出錯 包括兩個誤報 (例如,如果輸出內容不安全, 非) 和偽陰性 (如果輸出處於不安全狀態,就不會標示為不安全)。變更者: 利用 F1、精確度、喚回度和 AUC-ROC 等指標評估分類器 您可以決定在偽陽性和偽陽性之間 取捨的方式 負面錯誤。只要變更分類器門檻,您就能 避免過度篩選輸出內容,同時兼顧 適當的安全措施

檢查分類器是否有非預期的偏誤:安全分類器 (例如 可能會帶來非預期的偏誤,例如社會文化 刻板印象應用程式必須經過適當評估,才能 問題行為具體來說,內容安全分類器可以 過度觸發與主要身分相關的內容 惡意言語。例如,當 Perspective API 之前 才剛啟用模型,這個模型從留言中傳回較高的惡意分數 參照特定身分群組 (網誌)。這個過度觸發 可能會因為註解中提及身分相關字詞 經常鎖定的目標群組 (例如「黑色」、「穆斯林」、「女權主義」等字詞 「女性」、「同志」等) 在大自然中較常見。如果資料集使用 與訓練分類器相關的留言 分類器可能會過度一般,並考量含有這些字詞的所有留言 表示可能有安全疑慮瞭解 Jigsaw 團隊的成功案例 減緩這種非預期的偏誤。

開發人員資源