安全指南

生成式人工智慧模型是功能強大的工具完全不受限制有時工具的靈活性和適用性導致非預期的輸出內容，例如輸出內容不正確、有偏誤或令人反感的內容後續處理和嚴謹的人工評估以降低這類輸出的傷害風險

Gemini API 提供的模型可用於多種生成式 AI 和自然語言處理 (NLP) 應用程式使用這些您只能透過 Gemini API 或 Google AI Studio 網頁版使用函式應用程式。使用 Gemini API 時，也須遵守生成式 AI 使用限制政策和 Gemini API 服務條款。

大型語言模型 (LLM) 的實用性能滿足許多不同語言任務的創意工具很抱歉，這也表示大型語言模型可以生成輸出內容預期含文字令人反感、敏感或與事實不符。而且這些模型的靈活性也讓我們難以準確預測可能產生什麼樣的輸出內容雖然 Gemini API 採用 Google AI 技術原則，我們希望開發人員可以以負責任的方式套用這些模型協助開發人員以負責任的方式 Gemini API 提供部分內建內容篩選功能可調整的安全設定，適用於 4 個層面的傷害。詳情請參閱安全性設定指南，即可瞭解詳情。

本文件旨在說明並推薦新興的安全設計最佳化建議。(請注意，法律和法規也可能設有相關限制，但這些考量不在本指南的討論範圍內)。

使用 LLM 建構應用程式時，建議遵循下列步驟：

瞭解應用程式的安全風險
考慮進行調整以降低安全風險
針對您的用途執行適當的安全測試
向使用者徵求意見回饋並監控使用情況

調整和測試階段應反覆進行，直到達成為止打造適合應用程式的效能

模型實作週期

瞭解應用程式的安全性風險

在這裡，「安全性」的定義是 LLM 可能對使用者造成傷害宣傳刻板印象透過 Gemini API 提供的模型遵循 Google 的 AI 開發原則使用時須遵守生成式 AI 使用限制政策。API 內建安全性篩選器，協助解決常見的語言模型有毒語言、仇恨言論，以及堅守多元包容精神等問題以及避免刻板印象但是，每個應用程式皆可提供不同的並保護使用者的風險因此，應用程式擁有者瞭解使用者與應用程式可能造成的危害，確保應用程式以安全且負責任的方式使用 LLM。

進行評估時，應考量並確定其嚴重性和緩解步驟。舉例來說要根據事實事件產生論文的應用程式必須格外謹慎與生成虛構的應用程式相比，致力避免不實資訊可以帶來更有趣的體驗開始探索潛在安全風險的好方法目的是研究使用者，以及其他可能影響你結果。這有很多種形式，包括研究觀察使用者運用類似應用程式的情形或進行使用者研究、問卷調查或非正式訪談吸引潛在使用者

進階提示

針對目標內的不同潛在使用者組合進行宣傳將應用程式及預定用途填入資料以便更廣泛地瞭解潛在風險，並調整多元性。
AI 風險管理架構有美國政府機構美國國家標準暨技術研究院 (NIST) 提供更多 AI 風險管理的詳細指南和其他學習資源。
DeepMind 的出版品語言模型造成危害的倫理和社會風險詳細介紹了可能造成損害

考慮採取調整來降低安全風險

瞭解風險後，接著就可以決定具體做法是指示 Kubernetes 建立並維護一或多個代表這些 Pod 的物件判斷要優先處理哪些風險，以及應採取哪些行動這就像將軟體錯誤分類專案。決定好要優先事項後，接下來可以開始思考最適合採取的緩解措施通常只要稍微調整一下並降低風險

舉例來說，設計應用程式時會考量以下因素：

調整模型輸出內容，更準確地反映您的應用程式結構定義。調整模型可以提高模型的輸出內容可預測且一致，因此有助於減輕某些風險。
提供的輸入法提供更安全的輸出內容。確切輸入內容要求 LLM 回答，結果品質會更好。嘗試輸入提示，找出效果最佳的因此非常值得您付出心力，如此一來就能提供提升整體效率舉例來說，您可以限制使用者只能新增輸入提示的下拉式清單，或提供描述性您可以放心建立這些詞句，並在應用程式結構定義中安全地執行這些詞組。
在向使用者顯示安全性前，先封鎖不安全的輸入內容並篩選輸出內容使用者。這時，封鎖清單就能用來識別提示或回覆含有不安全的字詞或詞組，或是僅供人工審查手動變更或封鎖這類內容。

注意： 根據靜態清單自動封鎖可能在意料之外結果，例如鎖定常用詞彙的特定族群封鎖清單中。
使用訓練過的分類器，為每個提示加上潛在危害標籤，或對抗信號。接著，您就能採用不同的策略根據所偵測到的傷害類型處理要求。舉例來說，如果輸入內容太過強烈的對抗或不當內容，因此可能會遭到封鎖而是會輸出事前腳本的回應
進階提示
- 如果信號判定輸出內容是有害的，應用程式可採用下列選項：
  - 提供錯誤訊息或預先安排的輸出內容。
  - 請再次輸入提示，並預防替代安全輸出內容：因為有時相同的提示也會產生不同的輸出內容
採取保護措施來防範蓄意濫用，例如指派每個使用者都有專屬 ID 而且使用者查詢量會受到限制以及在特定期間提交的內容另一項保護措施是嘗試防止出現提示插入的情況提示插入，與 SQL 類似惡意使用者會藉此設計輸入提示操控模型的輸出內容，例如傳送輸入提示指示模型忽略之前的任何範例詳情請參閱生成式 AI 使用限制政策。
將功能調整到原本不太可能降低的風險。 範圍較小的工作 (例如從文字)，或是內容較為人工監督 (例如：製作短篇影片) 送交人工審查的內容) 通常的風險較低。針對例如，與其建立應用程式來撰寫電子郵件回覆除了在大綱上展開替代語句

針對您的用途執行適當的安全測試

測試是建構強大且安全應用程式的關鍵要素，但更進一步範圍和測試策略都不盡相同舉例來說和提供法律文件摘要及協助草擬合約但更多使用者都能使用 Haiku 產生器可能會產生惡意企圖甚至是非預期的有害輸入。實作的情境也很重要。例如應用程式相關輸出內容均已通過專家審查，才會在執行任何行動前可能較不可能產生有害輸出內容且不會對應用程式造成這類監督

反覆進行變更及測試有時並不常見再對應用程式做好萬全準備，則風險相對較低對 AI 技術來說，兩種測試特別實用應用程式：

安全基準化包括設計安全指標，以反映可能的隱密性，然後測試應用程式在指標上的成效分析資料集建議您考量可接受的安全指標，以便 1) 對照這些期望評估測試結果，以及 2) 您可以收集評估用資料集大致上來說
進階提示
- 留意過度依賴「現成」的做法，因為這麼做很有可能您將需要自行建構測試資料集完全配合應用程式的情境
- 如果您有多個指標，就必須決定您希望如果變更導致單一指標的成效提升而負責任的 AI 技術如同其他效能工程評估時，可能會希望將重點放在最壞情況的成效而非平均成效
對抗性測試是指積極嘗試應用程式。目的是找出弱點，有效提升執行效能相關修正步驟。對抗測試評估人員需要投入大量時間/心力，才能發揮您的專業。但活動越多，發現問題的可能性就越大尤其是很少出現，或是只會在重複執行應用程式。
- 對抗測試是一種系統性評估機器學習的方式意圖學習惡意或無意中有害的輸入內容：
  - 如果輸入內容清楚設計為惡意輸入來源，產生不安全或有害的輸出內容，例如詢問使用者要求生成模型產生「仇恨」宗教
  - 輸入內容本身無害，但產生有害輸出內容，例如模型描述特定族裔的卻收到不起種族的偏見
- 對抗性測試與標準評估的區別在於測試用的資料組合若要進行對抗測試，請選取最有可能產生問題輸出內容的模型這代表模型針對所有可能造成的傷害，包括罕見或不尋常的例子或遇到與安全政策相關的邊緣案例這應包含語句不同維度的多樣性，例如結構意義和長度您可以參閱「Google 負責任的 AI 技術做法公平性。
  進階提示
  - 使用自動化測試而不是使用傳統方式將「紅隊」成員來嘗試修復應用程式在自動測試中「紅隊」是另一種語言模型，可找出從測試模型中取得有害輸出內容
，瞭解如何調查及移除這項存取權。
注意： 已知 LLM 有時會針對相同的輸入提示可能需要多次測試才能找出更多顯示發生問題的輸出內容

監控問題

無論您的測試與緩解程度如何，永遠都有完美之處，因此事先計劃如何找出並處理突發問題。一般做法包括建立受監控的管道，方便使用者分享意見回饋 (例如「喜歡/不喜歡」評分) 及進行使用者研究，主動徵求意見不同使用者組合的意見 — 尤其是當使用模式太或預期不同

進階提示

使用者對 AI 產品提供意見，可大幅提升 AI 品質成效和使用者體驗變化協助您選擇更好的提示調整範例意見回饋及控管章節參閱 Google 人員與 AI 指南列出設計時要考量的重點意見回饋機制

後續步驟

詳情請參閱安全設定指南，瞭解可調整項目可透過 Gemini API 存取安全性設定
請參閱提示簡介，瞭解如何您會開始撰寫第一則提示