安全性和事實性指引

生成式人工智慧模型功能強大,但並非沒有限制。這類模型用途廣泛,有時可能會產生不準確、有偏見或令人反感的輸出內容。後續處理和嚴格的手動評估至關重要,可降低這類輸出內容造成危害的風險。

Gemini API 提供的模型可用於各種生成式 AI 和自然語言處理 (NLP) 應用程式。如要使用這些功能,只能透過 Gemini API 或 Google AI Studio 網頁應用程式。使用 Gemini API 時,也必須遵守《生成式 AI 使用限制政策》和《Gemini API 服務條款》。

大型語言模型 (LLM) 之所以如此實用,是因為這類模型是創意工具,可處理許多不同的語言工作。但這也表示大型語言模型可能會生成預期外的內容,包括令人反感、未顧及感受或與事實不符的文字。此外,這些模型功能多元,也因此難以準確預測可能會產生哪些不當輸出內容。雖然 Gemini API 的設計已考量 Google AI 原則,但開發人員仍有責任以負責任的方式使用這些模型。為協助開發人員建立安全可靠的應用程式,Gemini API 內建內容篩選功能,並提供可調整的安全設定,可針對 4 個危害層面進行控管。詳情請參閱安全設定指南。此外,這項功能也提供以 Google 搜尋為基礎的資訊,可提高資訊真實性,但如果開發人員的使用情境較具創意,而非搜尋資訊,則可停用這項功能。

這份文件旨在向您介紹使用 LLM 時可能出現的一些安全風險,並提供新興的安全設計和開發建議。(請注意,法律和法規也可能設下限制,但這類考量不在本指南的討論範圍內)。

使用 LLM 建構應用程式時,建議採取下列步驟:

  • 瞭解應用程式的安全風險
  • 考慮調整內容以降低安全風險
  • 根據用途執行適當的安全測試
  • 徵求使用者意見回饋及監控使用情況

您應反覆調整及測試,直到達到適合應用程式的效能為止。

模型導入週期

瞭解應用程式的安全風險

在此情境中,安全是指 LLM 避免對使用者造成傷害的能力,例如生成惡意語言或宣揚刻板印象的內容。Gemini API 提供的模型均以 Google 的 AI 開發原則為設計依據,使用時須遵守《生成式 AI 使用限制政策》。這項 API 提供內建安全篩選器,可協助解決一些常見的語言模型問題,例如有害語言和仇恨言論,並盡量避免出現刻板印象,以求包容性。不過,每項應用程式都可能對使用者造成不同的風險。因此,身為應用程式擁有者,您有責任瞭解使用者和應用程式可能造成的潛在危害,並確保應用程式安全且負責任地使用 LLM。

在評估過程中,您應考量發生損害的可能性,並判斷損害的嚴重程度和緩解步驟。舉例來說,如果應用程式會根據真實事件生成文章,就必須比生成虛構故事的娛樂應用程式更謹慎,避免提供錯誤資訊。如要開始探索潛在安全風險,建議先研究目標使用者,以及可能受到應用程式結果影響的其他使用者。這類研究的形式有很多種,包括研究應用程式領域的最新研究、觀察使用者如何使用類似應用程式,或是進行使用者研究、問卷調查,或與潛在使用者進行非正式訪談。

進階提示

  • 與目標族群中各種潛在使用者談論應用程式及其預期用途,以更全面地瞭解潛在風險,並視需要調整多元性條件。
  • 美國政府的國家標準暨技術研究院 (NIST) 發布了 AI 風險管理架構,提供更詳盡的指引和額外的 AI 風險管理學習資源。
  • DeepMind 發布的 語言模型倫理和社會危害風險研究,詳細說明瞭語言模型應用程式可能造成的危害。

考慮調整設定,以降低安全和事實性風險

瞭解風險後,您就能決定如何降低風險。決定要優先處理哪些風險,以及應採取多少措施來防範風險,是至關重要的決策,類似於軟體專案中的錯誤分類。確定優先順序後,即可開始思考最合適的緩解措施類型。通常簡單的變更就能帶來差異,並降低風險。

舉例來說,設計應用程式時,請考量下列事項:

  • 調整模型輸出內容,使其更符合應用程式環境的接受範圍。微調可讓模型輸出內容更可預測且一致,因此有助於降低特定風險。
  • 提供可產生更安全輸出內容的輸入方式。提供給 LLM 的確切輸入內容,可能會影響輸出內容的品質。建議您嘗試不同的輸入提示,找出最適合您用途的安全做法,然後提供有助於此做法的 UX。舉例來說,您可以限制使用者只能從輸入提示的下拉式清單中選擇,或是提供彈出式建議,其中包含您在應用程式環境中發現可安全執行的描述性片語。
  • 封鎖不安全的輸入內容,並在輸出內容顯示給使用者前加以過濾。若情境單純,確實能使用封鎖清單找出及封鎖提示或回覆中的不安全字詞或詞組,或要求人工審查員手動修改或封鎖這類內容。

  • 使用經過訓練的分類器,標記可能包含有害或對抗信號的提示。然後您就能根據偵測到的危害類型,運用不同策略處理要求。舉例來說,如果輸入內容明顯含有對抗或濫用意圖,系統可能會封鎖該內容,並輸出制式回覆。

    進階提示

    • 如果訊號判斷輸出內容有害,應用程式可以採用下列選項:
      • 提供錯誤訊息或制式輸出內容。
      • 請再次嘗試輸入提示,因為有時相同的提示會產生不同的輸出內容,或許會生成替代的安全輸出內容。

  • 採取防範措施,避免遭到蓄意濫用,例如為每位使用者指派專屬 ID,並限制特定時間內可提交的使用者查詢量。另一項防護措施是盡量防範可能的提示詞注入攻擊。提示詞注入與 SQL 注入非常相似,惡意使用者可設計輸入提示詞,藉此操控模型的輸出內容,例如傳送輸入提示詞,指示模型忽略先前的任何範例。如要瞭解蓄意濫用的詳細資訊,請參閱生成式 AI 使用限制政策

  • 將功能調整為本質上風險較低的事物。 範圍較窄的任務 (例如從一段文字中擷取關鍵字),或需要大量人工監督的任務 (例如生成短片內容,並由專人審查),通常風險較低。舉例來說,您可能不會從頭建立應用程式來撰寫電子郵件回覆,而是限制應用程式擴充大綱或建議替代措辭。

  • 調整有害內容安全性設定,降低看到可能有害回覆的機率。Gemini API 提供安全設定,您可以在原型設計階段調整這些設定,判斷應用程式是否需要更嚴謹或寬鬆的安全設定。您可以調整這五個篩選器類別的設定,藉此限制或允許特定類型的內容。請參閱安全設定指南,瞭解如何透過 Gemini API 調整安全設定。

  • 啟用「以 Google 搜尋強化事實基礎」功能,減少潛在的事實錯誤或幻覺。請注意,許多 AI 模型都處於實驗階段,可能會提供不正確的資訊、產生幻覺,或以其他方式輸出有問題的內容。「以 Google 搜尋強化事實基礎」功能可將 Gemini 模型連結至即時網路內容,並支援所有可用語言。這樣 Gemini 就能提供更準確的答案,並引用模型知識截點以外的可驗證來源。

根據用途執行適當的安全測試

測試是建構安全可靠應用程式的重要環節,但測試的程度、範圍和策略會有所不同。舉例來說,與專供律師事務所使用的應用程式 (可摘要法律文件及協助草擬合約) 相比,僅供娛樂的俳句產生器可能造成的風險較小。但俳句生成器可能供更多使用者使用,這表示出現對抗性嘗試或甚至無意間輸入有害內容的可能性更高。實作環境也很重要。舉例來說,如果應用程式的輸出內容會先經過專家審查,再採取任何行動,則與未經審查的相同應用程式相比,可能較不容易產生有害輸出內容。

即使是風險相對較低的應用程式,您也可能需要經過多次迭代的變更和測試,才能確信已準備好發布。有兩種測試特別適合 AI 應用程式:

  • 安全基準測試包括設計安全指標,反映應用程式在可能的使用情境中不安全的方式,然後使用評估資料集測試應用程式在指標上的表現。建議您在測試前先考量安全指標的最低可接受程度,這樣一來,您就能根據這些期望評估測試結果,並根據評估最重要指標的測試收集評估資料集。

    進階提示

    • 請勿過度依賴「現成」方法,因為您可能需要使用人工評估人員建立自己的測試資料集,才能完全符合應用程式的環境。
    • 如果有多個指標,您需要決定如何取捨,因為變更可能會改善某項指標,但對其他指標不利。與其他成效工程一樣,您可能想著重於評估集中的最差情況成效,而非平均成效。
  • 對抗測試是指主動嘗試破壞應用程式,目標是找出弱點,以便採取適當的補救措施。對抗性測試可能需要評估人員投入大量時間/精力,但測試次數越多,就越有機會發現問題,尤其是很少發生或只在重複執行應用程式後才會發生的問題。

    • 對抗測試是一種系統性評估方法,用來瞭解使用者輸入惡意提示,或無意間輸入有害提示時,機器學習模型會有什麼行為:
      • 惡意輸入內容是為了產生不安全或有害結果,而刻意設計的內容。舉例來說,要求文字生成模型針對特定宗教生成仇恨言論。
      • 非故意的有害輸入內容本身可能無害,但會生成有害的輸出內容,例如要求文字生成模型描述特定族裔的人,而模型提供的輸出內容帶有種族歧視。
    • 對抗測試與標準評估的不同之處,在於測試所用的資料組成。如果是對抗測試,請選取最有可能導致模型產生問題輸出的測試資料。也就是說,要探究模型行為是否會造成各種危害,包括罕見或異常的例子,以及與安全政策相關的極端案例。此外,句子也應在結構、意義和長度等不同層面呈現多樣性。如要進一步瞭解如何建構測試資料集,請參閱 Google 負責任的 AI 做法:公平性

      進階提示

      • 使用自動化測試,取代傳統的「紅隊」人員招募方式,嘗試破解應用程式。在自動測試中,「紅隊」是另一個語言模型,會找出可引發受測模型產生有害輸出內容的輸入文字。

監控問題

無論您進行多少測試和減輕措施,都無法保證完美無缺,因此請預先規劃如何發現及處理發生的問題。常見做法包括設定監控管道,供使用者分享意見回饋 (例如按讚/倒讚評分),以及進行使用者研究,主動向各種使用者徵求意見回饋,如果使用模式與預期不同,這項做法就特別有價值。

進階提示

  • 使用者對 AI 產品提供的意見回饋,可協助您選擇更合適的提示微調範例,進而大幅提升 AI 效能和使用者體驗。Google 的「人與 AI 指南」中的「意見回饋與控制」一章,重點說明設計意見回饋機制時應考量的要點。

後續步驟

  • 請參閱安全設定指南,瞭解如何透過 Gemini API 調整安全設定。
  • 請參閱提示簡介,開始撰寫第一個提示詞。