建立輸入和輸出保護措施

生成式 AI 應用程式通常需要篩選輸入和輸出資料 有時也稱為「安全守衛」,協助確保以負責任的方式執行模型 行為輸入和輸出篩選技術會檢查輸入或輸出的資料 將符合您的政策 您需要定義應用程式所需的值

現成的保護措施

即使先前已調整安全性,並採用設計完善的提示範本, 您的模型還是有可能輸出造成意外傷害的內容 想進一步簡化這個問題,內容分類器可以在 以及防護敏感內容類別可套用至輸入和輸出內容。

輸入分類器通常用於篩選非預期的內容 用於您的應用程式,進而導致模型違反 安全政策。輸入篩選器通常會鎖定惡意攻擊,試圖 規避內容政策輸出分類器可進一步篩選模型 輸出內容,以及攔截可能違反安全政策的非預期生成內容。 建議您設定涵蓋所有內容政策的分類項。

Google 提供以 API 為基礎的內容安全分類器,可用來 篩選系統輸入和輸出內容:

  • Perspective API 是採用機器技術的免費 API 機器學習模型,為留言可能帶來的正面影響評分 對話。模型會提供一個分數 留言包含惡意、威脅、侮辱或離題的內容。
  • 文字管理服務是 Google Cloud API, 用量須低於特定限制,以及 運用機器學習技術,根據安全清單來分析文件 包括各種可能有害的類別和 都屬於敏感內容

請務必評估現成分類器是否合乎您的政策 ,並透過質性評估失敗案例。此外, 請注意,過度篩選不但可能導致意外傷害 應用程式的公用程式,因此您也必須檢閱 過度篩選的情況如要進一步瞭解這類評估 方法,請參閱評估模型和系統以確保安全

建立自訂安全分類器

現成的保護措施有許多原因 用途包括提供不支援的政策,或是想要 經觀察到的資料影響系統能進一步調整保護措施。於 在此情況下,靈活的分類器會提供效率更高的分類器, 靈活的架構,以便藉由調整模型來建立自訂保護措施,例如 Gemma,滿足你的需求。同時讓你完全掌控 部署方式

Gemma Agile 分類器教學課程

啟動程式碼研究室 啟動 Google Colab

以下介紹靈活的分類器:codelab 教學課程使用 LoRA 微調 Gemma 使用 KerasNLP 做為內容審核分類器 資源庫。我們只使用 ETHOS 資料集中的 200 個範例, 分類器的 F1 分數為 0.80,ROC-AUC 分數 與 0.78 相比,這與最先進的 排行榜結果。如要訓練 800 個樣本 例如排行榜上的其他分類器,Gemma 中具有敏捷性分類技術 獲得 F1 分數 83.74,ROC-AUC 分數為 88.17。您可以調整 教學課程,瞭解如何進一步修正這個分類器,或是自行建立 以及由自訂安全分類器保護措施所組成

設定保護措施的最佳做法

強烈建議您使用安全分類器做為保護措施。不過 以免生成式模型 使用者也會看到這個按鈕應用程式需要設計來因應這種情況 確認是否屬於此情況大多數熱門的聊天機器人會提供罐頭回應 (「我是 很抱歉,這是語言模型,因此無法針對這項要求提供協助」)。

在實用性與無傷害之間找到平衡:使用 安全分類器,務必瞭解這些錯誤會出錯 包括兩個誤報 (例如,如果輸出內容不安全, 非) 和偽陰性 (如果輸出處於不安全狀態,就不會標示為不安全)。變更者: 利用 F1、精確度、喚回度和 AUC-ROC 等指標評估分類器 您可以決定在偽陽性和偽陽性之間 取捨的方式 負面錯誤。只要變更分類器門檻,您就能 避免過度篩選輸出內容,同時兼顧 適當的安全措施

檢查分類器是否有非預期的偏誤:安全分類器 (例如 可能會帶來非預期的偏誤,例如社會文化 刻板印象應用程式必須經過適當評估,才能 問題行為具體來說,內容安全分類器可以 過度觸發與主要身分相關的內容 惡意言語。例如,當 Perspective API 之前 才剛啟用模型,這個模型從留言中傳回較高的惡意分數 參照特定身分群組 (網誌)。這個過度觸發 可能會因為註解中提及身分相關字詞 經常鎖定的目標群組 (例如「黑色」、「穆斯林」、「女權主義」等字詞 「女性」、「同志」等) 在大自然中較常見。如果資料集使用 與訓練分類器相關的留言 分類器可能會過度一般,並考量含有這些字詞的所有留言 表示可能有安全疑慮瞭解 Jigsaw 團隊的成功案例 減緩這種非預期的偏誤。

開發人員資源