安全性和事實性指引

生成式人工智慧模型是功能強大的工具,但仍有其限制。這類模型用途廣泛,有時會產生意想不到的輸出內容,例如不正確、有偏見或令人反感的內容。因此,後續處理和嚴格的人工評估至關重要,可降低這類輸出內容造成危害的風險。

Gemini API 提供的模型可用於各種生成式 AI 和自然語言處理 (NLP) 應用程式。這些功能只能透過 Gemini API 或 Google AI Studio 網頁應用程式使用。使用 Gemini API 時,也須遵守《生成式 AI 使用限制政策》和《Gemini API 服務條款》。

大型語言模型 (LLM) 之所以如此實用,是因為這類模型是創意工具,可處理許多不同的語言工作。但很遺憾的是,這也表示大型語言模型可能會生成您意想不到的輸出內容,包括冒犯、不當或不實的文字。此外,這類模型用途廣泛,因此難以準確預測可能產生哪些不當輸出內容。雖然 Gemini API 的設計符合 Google 的 AI 原則,但開發人員有責任以負責任的方式使用這些模型。為協助開發人員建立安全可靠的應用程式,Gemini API 內建內容篩選功能,並提供 4 個危害層面的安全設定,可供調整。如要瞭解詳情,請參閱安全設定指南。此外,Gemini API 也提供 Google 搜尋基礎功能,可提高事實準確度,但如果開發人員的使用情境偏向創意,而非資訊搜尋,則可停用這項功能。

這份文件旨在介紹使用 LLM 時可能出現的一些安全風險,並提供新興的安全設計和開發建議。(請注意,法律和法規也可能設下限制,但這類考量不在本指南的討論範圍內)。

使用 LLM 建構應用程式時,建議採取下列步驟:

  • 瞭解應用程式的安全風險
  • 考慮調整內容以降低安全風險
  • 根據用途執行適當的安全測試
  • 徵求使用者意見回饋及監控使用情況

您應反覆進行調整和測試,直到應用程式達到適當的效能為止。

模型導入週期

瞭解應用程式的安全風險

在此情境下,安全是指大型語言模型避免對使用者造成傷害的能力,例如產生有害語言或宣揚刻板印象的內容。透過 Gemini API 提供的模型設計時已考量 Google 的 AI 原則,且使用這些模型時須遵守《生成式 AI 禁用政策》。API 提供內建安全篩選器,有助於解決一些常見的語言模型問題,例如有害語言和仇恨言論,並盡量避免刻板印象,確保內容具有包容性。不過,每個應用程式都可能對使用者造成不同程度的傷害。因此,身為應用程式擁有者,您有責任瞭解使用者和應用程式可能造成的潛在傷害,並確保應用程式安全且負責任地使用大型語言模型。

在評估過程中,您應考量發生損害的可能性,並判斷損害的嚴重程度和緩解步驟。舉例來說,如果應用程式會根據真實事件生成文章,就必須比生成虛構故事的娛樂應用程式更謹慎,避免提供錯誤資訊。如要開始探索潛在安全風險,建議先研究您的使用者,以及可能受到應用程式結果影響的其他對象。這類研究的形式有很多種,包括研究應用程式領域的最新研究、觀察使用者如何使用類似應用程式,或是進行使用者研究、問卷調查,或與潛在使用者進行非正式訪談。

進階提示

  • 與目標族群中各種背景的潛在使用者討論應用程式及其預期用途,以更全面地瞭解潛在風險,並視需要調整多元性條件。
  • 美國政府的國家標準技術局 (NIST) 發布了 AI 風險管理架構,提供更詳盡的指引和額外的 AI 風險管理學習資源。
  • DeepMind 針對語言模型造成的倫理和社會危害風險發布的刊物,詳細說明瞭語言模型應用程式可能造成的危害。

考慮調整設定,以降低安全和事實性風險

瞭解風險後,您就能決定如何降低風險。判斷要優先處理哪些風險,以及應採取多少措施來防範這些風險,是至關重要的決策,類似於軟體專案中的錯誤分類。確定優先順序後,即可開始思考最合適的緩解措施類型。通常簡單的變更就能帶來差異,並降低風險。

舉例來說,設計應用程式時,請考量:

  • 調整模型輸出內容,使其更符合應用程式環境的接受標準。調整後,模型輸出內容會更可預測且一致,因此有助於降低特定風險。
  • 提供輸入方法,協助生成更安全的輸出內容。您提供給 LLM 的確切輸入內容,可能會影響輸出內容的品質。建議您嘗試使用不同的輸入提示,找出最適合您用途的安全做法,然後提供有助於此做法的 UX。舉例來說,您可以限制使用者只能從輸入提示的下拉式清單中選擇,或是提供含有描述性片語的彈出式建議,這些片語在您的應用程式環境中可安全執行。
  • 封鎖不安全的輸入內容,並在輸出內容顯示給使用者前加以過濾。若情境單純,確實能使用封鎖清單找出及封鎖提示或回覆中的不安全字詞或詞組,或要求人工審查員手動修改或封鎖這類內容。

  • 使用經過訓練的分類器,為每個提示標記潛在危害或對抗信號。然後,根據偵測到的危害類型,採用不同策略處理要求。舉例來說,如果輸入內容明顯具有對抗或濫用性質,系統可能會封鎖該內容,並輸出預先編寫的回應。進階提示:如果信號判斷輸出內容有害,應用程式可以採取下列做法:

    • 提供錯誤訊息或制式輸出內容。
    • 請再次嘗試使用提示詞,因為有時相同的提示詞會產生不同的輸出內容,或許會生成其他安全輸出內容。
  • 防範蓄意濫用行為,例如為每位使用者指派專屬 ID,並限制使用者在特定時間內可提交的查詢量。另一項保護措施是盡量防範可能的提示詞注入。提示詞注入與 SQL 注入類似,惡意使用者可設計輸入提示詞來操縱模型輸出內容,例如傳送輸入提示詞,指示模型忽略先前的任何範例。如要進一步瞭解蓄意濫用行為,請參閱生成式 AI 使用限制政策

  • 將功能調整為本質上風險較低的項目。 範圍較窄的任務 (例如從文字段落中擷取關鍵字) 或需要大量人工監督的任務 (例如生成短片內容,並由專人審查),通常風險較低。舉例來說,您可能不會從頭建立應用程式來撰寫電子郵件回覆,而是限制應用程式擴充大綱或建議替代措辭。

  • 調整有害內容安全設定,降低看到有害回覆的可能性。Gemini API 提供安全設定,您可以在原型設計階段調整這些設定,判斷應用程式是否需要更嚴謹或寬鬆的安全設定。您可以調整五個篩選類別的設定,藉此限制或允許特定類型的內容。請參閱安全設定指南,瞭解 Gemini API 提供的可調整安全設定。

  • 啟用「以 Google 搜尋為基礎」功能,減少潛在的事實錯誤或幻覺。請注意,許多 AI 模型仍處於實驗階段,可能會提供不正確的資訊、產生幻覺,或輸出其他有問題的內容。有了「以 Google 搜尋強化事實基礎」,Gemini 模型就能取得即時網路內容。這項功能支援所有可用語言,可讓 Gemini 提供更準確的回覆,並引用模型知識截點以外的可驗證來源。

根據用途執行適當的安全測試

測試是建構穩健安全應用程式的重要環節,但測試的程度、範圍和策略會因情況而異。舉例來說,與其說俳句生成器可能造成嚴重風險,不如說它只是好玩。但如果應用程式是供律師事務所使用,用於摘要法律文件和協助草擬合約,風險就可能較高。不過,俳句生成器可能會有更多使用者,這表示發生對抗性嘗試或甚至無意間輸入有害內容的可能性較高。實作環境也很重要。舉例來說,如果應用程式的輸出內容會先經過專家審查,再採取任何行動,那麼與沒有這類監督機制的相同應用程式相比,產生有害輸出內容的可能性較低。

即使是風險相對較低的應用程式,您也可能需要經過多次迭代的變更和測試,才能確信已準備好發布。有兩種測試特別適合 AI 應用程式:

  • 安全基準測試包括設計安全指標,反映應用程式在可能的使用情境中不安全的方式,然後使用評估資料集測試應用程式在指標上的表現。建議您在測試前先考量安全指標的最低可接受程度,這樣一來,您就能根據這些期望評估測試結果,並根據評估您最重視指標的測試,收集評估資料集。

    進階提示:

    • 請注意,過度依賴「現成」方法可能無法完全符合應用程式情境,因此您可能需要使用人工評估人員建立自己的測試資料集。
    • 如果有多個指標,您需要決定如何取捨,因為變更可能改善某個指標,但對其他指標不利。與其他效能工程一樣,您可能想著重於評估集中的最差情況效能,而非平均效能。
  • 對抗測試是指主動嘗試破壞應用程式。目標是找出弱點,以便採取適當的補救措施。對應用程式進行對抗測試,可能需要評估人員投入大量時間/精力,但測試次數越多,就越有機會發現問題,尤其是很少發生或只在重複執行應用程式後才會發生的問題。

    • 對抗測試是一種系統性評估方法,用來瞭解使用者輸入惡意提示,或無意間輸入有害提示時,機器學習模型會有什麼行為:
      • 惡意輸入內容是為了產生不安全或有害結果,而刻意設計的內容。舉例來說,要求文字生成模型針對特定宗教生成仇恨言論。
      • 非故意的有害輸入內容本身可能無害,但會生成有害的輸出內容,例如要求文字生成模型描述特定族裔的人,而模型提供的輸出內容帶有種族歧視。
    • 對抗測試與標準評估的差異在於測試所用的資料組成。進行對抗測試時,請選取最有可能引發模型產生問題輸出的測試資料。也就是說,要探究模型在所有可能危害類型中的行為,包括與安全政策相關的罕見或異常範例和極端情況。此外,測試資料也應涵蓋句子不同層面的多樣性,例如結構、意義和長度。如要進一步瞭解建構測試資料集時應考量的因素,請參閱 Google 的公平性責任 AI 做法進階提示:

    • 請使用自動化測試,而非傳統方法,也就是招募「紅隊」人員嘗試破解應用程式。在自動化測試中,「紅隊」是另一個語言模型,會找出可從受測模型引發有害輸出的輸入文字。

監控問題

無論測試和減輕多少,您都無法保證完美,因此請預先規劃如何發現及處理發生的問題。常見做法包括為使用者設定監控管道,讓他們分享意見回饋 (例如按讚/倒讚評分),以及進行使用者研究,主動向不同類型的使用者徵求意見回饋,如果使用模式與預期不同,這項做法就特別有價值。

進階提示

後續步驟

  • 請參閱安全性設定指南,瞭解如何透過 Gemini API 調整安全性設定。
  • 請參閱提示簡介,開始撰寫第一個提示。