建立輸入和輸出保護措施

生成式 AI 應用程式通常必須使用輸入和輸出資料篩選功能 (有時也稱為「安全保護措施」safeguards),以協助確保以負責任的方式處理模型行為。輸入和輸出篩選技術,可檢查傳入或傳出模型的資料。

安全防護與現成安全分類器

即使事先進行安全性調整並採用精心設計的提示範本,模型仍可能輸出無意中傷害的內容。為了進一步提升安全性,敏感內容類別可以額外增添一層保護措施。敏感內容類別可同時套用至輸入和輸出。

輸入分類器通常用於篩選不適合在應用程式中使用的內容,而這可能導致模型違反您的安全政策。輸入篩選器通常會鎖定企圖規避內容政策的惡意攻擊。輸出分類器可進一步篩選模型輸出內容,找出可能違反您安全性政策的意外產生內容。建議您設定能涵蓋所有內容政策的分類項。

Google 已開發現成的分類器,可用來篩選輸入和輸出內容,可用來篩選輸入和輸出內容,確保內容安全:

  • Perspective API 是免費的 API,可使用機器學習模型,針對留言可能對對話產生的影響評分。它提供的分數可反映留言是否有害、威脅、侮辱、偏離主題等可能性。
  • 文字審核服務是一個 Google Cloud API,最多可在特定用量限制下使用,並使用機器學習技術來分析文件是否列出安全屬性,包括各種可能有害的類別,以及可能被視為敏感主題。

請務必評估現成分類器能否有效達成政策目標,並量化評估失敗情況。另外請注意,過度篩選也可能導致非預期傷害,並減少應用程式的實用性,因此,請務必一併查看可能發生過度篩選情況的情況。如要進一步瞭解這類評估方法,請參閱評估模型與系統以確保安全

建立自訂的安全分類器

如果您的政策未受到現成 API 的保障,或是您想自行建立分類器,則參數效率提升的調整技術包括 prompt-調整LoRA,可提供有效的架構。在這些方法中,您可以使用有限的資料量來訓練模型的一小部分重要參數,而不必微調整個模型。這可讓模型學習新的行為,例如根據新的安全用途進行分類,訓練資料和運算能力相對較低。這個方法可讓您為自己的使用者和工作開發個人化安全工具。

為了說明這項功能的運作原理,這個程式碼研究室介紹了設定「靈活分類器」所需的程式碼。程式碼研究室會示範擷取資料的步驟,包括擷取資料、為 LLM 設定格式、訓練 LoRA 權重,以及評估結果。Gemma 只需編寫幾行程式碼,就能建構這些強大的分類器。如需更詳細的總覽,請參閱《Towards Agile Text Classifiers for Everyone》(向所有人的靈活文字分類器) 研究報告,說明如何使用這些技術訓練各種安全性工作,只用幾百個訓練範例達成最先進的效能狀態。

在這個教學課程中,您可以使用 ETHOS 資料集訓練仇恨言論的分類器;這個資料集是以 YouTube 和 Reddit 留言建構而成,可公開用於偵測仇恨言論的資料集。在較小的 Gemma 模型上進行訓練時,只有 200 個樣本 (僅不到 1⁄4 的資料集) 可讓 F1 分數為 0.80,而 ROC-AUC 為 0.78。該結果與這個排行榜排行榜中回報的圖片狀態狀態良好比較好。如同排行榜中的其他分類器,在訓練 800 個範例時,Gemma 靈活分類器的 F1 分數為 83.74,ROC-AUC 分數為 88.17。您可以立即使用這個分類器,也可以參考 Gemma Agile Classifier 教學課程來進行調整。

Gemma Agile 分類器教學課程

開始使用程式碼研究室 啟動 Google Colab

設定保護措施的最佳做法

我們強烈建議使用安全分類器。不過,如果內容遭到封鎖,防護機制可能會導致生成式模型無法為使用者產生任何內容。應用程式必須經過設計,才能處理上述情況。大部分常見的聊天機器人會提供罐頭回應 (「很抱歉,我是語言模型,我無法處理這項要求」)。

在實用性與負面程度之間取得適當平衡:使用安全分類器時,請務必瞭解這些分類犯會出錯,包括兩個偽陽性 (例如:聲稱輸出內容不安全) 和偽陰性 (如果輸出內容不安全,因而無法標示為不安全)。使用 F1、精確度、喚回度和 AUC-ROC 等指標評估分類器,可以判斷您要如何捨棄偽陽性和偽陰性錯誤。藉由變更分類器的門檻,您可以找到理想平衡,避免輸出內容過度篩選,同時提供適當的安全性。

檢查分類器中是否有非預期的偏誤:如同其他機器學習模型,安全分類器可能會傳播非預期偏誤 (例如社會文化刻板印象)。應用程式必須經過適當評估,才能找出潛在的問題行為。特別是,內容安全分類器可能會在與身分 (通常成為線上濫用行為的目標) 有關的內容上過度觸發。舉例來說,Perspective API 首次推出時,模型會在參照特定身分群組 (網誌) 的留言中傳回較高的惡意度分數。之所以出現這種過度觸發的行為,是因為這類留言在本質上較常帶有毒性,例如提及「黑」、「穆斯林」、「女性主義」、「女人」、「同志」等字眼。如果用於訓練分類器的資料集對於含有特定字詞的留言有顯著的不平衡,分類器可能會過度一般化,並將含有這些字詞的所有留言視為不安全的留言。瞭解 Jigsaw 團隊如何緩解這個非預期偏誤。

開發人員資源