Gemini Deep Research 現已推出預先發布版，提供協作規劃、視覺化、MCP 支援等功能。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

安全性和事實性指引

生成式人工智慧模型是功能強大的工具，但仍有其限制。這類模型用途廣泛，有時會產生意想不到的輸出內容，例如不正確、有偏見或令人反感的內容。因此，後續處理和嚴格的人工評估至關重要，可降低這類輸出內容造成危害的風險。

Gemini API 提供的模型可用於各種生成式 AI 和自然語言處理 (NLP) 應用程式。這些功能只能透過 Gemini API 或 Google AI Studio 網頁應用程式使用。使用 Gemini API 時，也須遵守《生成式 AI 使用限制政策》和《Gemini API 服務條款》。

大型語言模型 (LLM) 之所以如此實用，是因為這類模型是創意工具，可處理許多不同的語言工作。但很遺憾的是，這也表示大型語言模型可能會生成您意想不到的輸出內容，包括冒犯、不當或不實的文字。此外，這類模型用途廣泛，因此難以準確預測可能產生哪些不當輸出內容。雖然 Gemini API 的設計符合 Google 的 AI 原則，但開發人員有責任以負責任的方式使用這些模型。為協助開發人員建立安全可靠的應用程式，Gemini API 內建內容篩選功能，並提供 4 個危害層面的安全設定，可供調整。如要瞭解詳情，請參閱安全設定指南。此外，Gemini API 也提供 Google 搜尋基礎功能，可提高事實準確度，但如果開發人員的使用情境偏向創意，而非資訊搜尋，則可停用這項功能。

這份文件旨在介紹使用 LLM 時可能出現的一些安全風險，並提供新興的安全設計和開發建議。(請注意，法律和法規也可能設下限制，但這類考量不在本指南的討論範圍內)。

使用 LLM 建構應用程式時，建議採取下列步驟：

瞭解應用程式的安全風險
考慮調整內容以降低安全風險
根據用途執行適當的安全測試
徵求使用者意見回饋及監控使用情況

您應反覆進行調整和測試，直到應用程式達到適當的效能為止。

模型導入週期

瞭解應用程式的安全風險

在此情境下，安全是指大型語言模型避免對使用者造成傷害的能力，例如產生有害語言或宣揚刻板印象的內容。透過 Gemini API 提供的模型設計時已考量 Google 的 AI 原則，且使用這些模型時須遵守《生成式 AI 禁用政策》。API 提供內建安全篩選器，有助於解決一些常見的語言模型問題，例如有害語言和仇恨言論，並盡量避免刻板印象，確保內容具有包容性。不過，每個應用程式都可能對使用者造成不同程度的傷害。因此，身為應用程式擁有者，您有責任瞭解使用者和應用程式可能造成的潛在傷害，並確保應用程式安全且負責任地使用大型語言模型。

在評估過程中，您應考量發生損害的可能性，並判斷損害的嚴重程度和緩解步驟。舉例來說，如果應用程式會根據真實事件生成文章，就必須比生成虛構故事的娛樂應用程式更謹慎，避免提供錯誤資訊。如要開始探索潛在安全風險，建議先研究您的使用者，以及可能受到應用程式結果影響的其他對象。這類研究的形式有很多種，包括研究應用程式領域的最新研究、觀察使用者如何使用類似應用程式，或是進行使用者研究、問卷調查，或與潛在使用者進行非正式訪談。

進階提示

與目標族群中各種背景的潛在使用者討論應用程式及其預期用途，以更全面地瞭解潛在風險，並視需要調整多元性條件。
美國政府的國家標準技術局 (NIST) 發布了 AI 風險管理架構，提供更詳盡的指引和額外的 AI 風險管理學習資源。
DeepMind 針對語言模型造成的倫理和社會危害風險發布的刊物，詳細說明瞭語言模型應用程式可能造成的危害。

考慮調整設定，以降低安全和事實性風險

瞭解風險後，您就能決定如何降低風險。判斷要優先處理哪些風險，以及應採取多少措施來防範這些風險，是至關重要的決策，類似於軟體專案中的錯誤分類。確定優先順序後，即可開始思考最合適的緩解措施類型。通常簡單的變更就能帶來差異，並降低風險。

舉例來說，設計應用程式時，請考量：

調整模型輸出內容，使其更符合應用程式環境的接受標準。調整後，模型輸出內容會更可預測且一致，因此有助於降低特定風險。
提供輸入方法，協助生成更安全的輸出內容。您提供給 LLM 的確切輸入內容，可能會影響輸出內容的品質。建議您嘗試使用不同的輸入提示，找出最適合您用途的安全做法，然後提供有助於此做法的 UX。舉例來說，您可以限制使用者只能從輸入提示的下拉式清單中選擇，或是提供含有描述性片語的彈出式建議，這些片語在您的應用程式環境中可安全執行。
封鎖不安全的輸入內容，並在輸出內容顯示給使用者前加以過濾。若情境單純，確實能使用封鎖清單找出及封鎖提示或回覆中的不安全字詞或詞組，或要求人工審查員手動修改或封鎖這類內容。

注意： 根據靜態清單自動封鎖可能會產生非預期的結果，例如鎖定經常使用封鎖清單中詞彙的特定群組。
使用經過訓練的分類器，為每個提示標記潛在危害或對抗信號。然後，根據偵測到的危害類型，採用不同策略處理要求。舉例來說，如果輸入內容明顯具有對抗或濫用性質，系統可能會封鎖該內容，並輸出預先編寫的回應。進階提示：如果信號判斷輸出內容有害，應用程式可以採取下列做法：
- 提供錯誤訊息或制式輸出內容。
- 請再次嘗試使用提示詞，因為有時相同的提示詞會產生不同的輸出內容，或許會生成其他安全輸出內容。
防範蓄意濫用行為，例如為每位使用者指派專屬 ID，並限制使用者在特定時間內可提交的查詢量。另一項保護措施是盡量防範可能的提示詞注入。提示詞注入與 SQL 注入類似，惡意使用者可設計輸入提示詞來操縱模型輸出內容，例如傳送輸入提示詞，指示模型忽略先前的任何範例。如要進一步瞭解蓄意濫用行為，請參閱生成式 AI 使用限制政策。
將功能調整為本質上風險較低的項目。 範圍較窄的任務 (例如從文字段落中擷取關鍵字) 或需要大量人工監督的任務 (例如生成短片內容，並由專人審查)，通常風險較低。舉例來說，您可能不會從頭建立應用程式來撰寫電子郵件回覆，而是限制應用程式擴充大綱或建議替代措辭。
調整有害內容安全設定，降低看到有害回覆的可能性。Gemini API 提供安全設定，您可以在原型設計階段調整這些設定，判斷應用程式是否需要更嚴謹或寬鬆的安全設定。您可以調整五個篩選類別的設定，藉此限制或允許特定類型的內容。請參閱安全設定指南，瞭解 Gemini API 提供的可調整安全設定。
啟用「以 Google 搜尋為基礎」功能，減少潛在的事實錯誤或幻覺。請注意，許多 AI 模型仍處於實驗階段，可能會提供不正確的資訊、產生幻覺，或輸出其他有問題的內容。有了「以 Google 搜尋強化事實基礎」，Gemini 模型就能取得即時網路內容。這項功能支援所有可用語言，可讓 Gemini 提供更準確的回覆，並引用模型知識截點以外的可驗證來源。

根據用途執行適當的安全測試

測試是建構穩健安全應用程式的重要環節，但測試的程度、範圍和策略會因情況而異。舉例來說，與其說俳句生成器可能造成嚴重風險，不如說它只是好玩。但如果應用程式是供律師事務所使用，用於摘要法律文件和協助草擬合約，風險就可能較高。不過，俳句生成器可能會有更多使用者，這表示發生對抗性嘗試或甚至無意間輸入有害內容的可能性較高。實作環境也很重要。舉例來說，如果應用程式的輸出內容會先經過專家審查，再採取任何行動，那麼與沒有這類監督機制的相同應用程式相比，產生有害輸出內容的可能性較低。

即使是風險相對較低的應用程式，您也可能需要經過多次迭代的變更和測試，才能確信已準備好發布。有兩種測試特別適合 AI 應用程式：

安全基準測試包括設計安全指標，反映應用程式在可能的使用情境中不安全的方式，然後使用評估資料集測試應用程式在指標上的表現。建議您在測試前先考量安全指標的最低可接受程度，這樣一來，您就能根據這些期望評估測試結果，並根據評估您最重視指標的測試，收集評估資料集。

進階提示：
- 請注意，過度依賴「現成」方法可能無法完全符合應用程式情境，因此您可能需要使用人工評估人員建立自己的測試資料集。
- 如果有多個指標，您需要決定如何取捨，因為變更可能改善某個指標，但對其他指標不利。與其他效能工程一樣，您可能想著重於評估集中的最差情況效能，而非平均效能。
對抗測試是指主動嘗試破壞應用程式。目標是找出弱點，以便採取適當的補救措施。對應用程式進行對抗測試，可能需要評估人員投入大量時間/精力，但測試次數越多，就越有機會發現問題，尤其是很少發生或只在重複執行應用程式後才會發生的問題。
- 對抗測試是一種系統性評估方法，用來瞭解使用者輸入惡意提示，或無意間輸入有害提示時，機器學習模型會有什麼行為：
  - 惡意輸入內容是為了產生不安全或有害結果，而刻意設計的內容。舉例來說，要求文字生成模型針對特定宗教生成仇恨言論。
  - 非故意的有害輸入內容本身可能無害，但會生成有害的輸出內容，例如要求文字生成模型描述特定族裔的人，而模型提供的輸出內容帶有種族歧視。
- 對抗測試與標準評估的差異在於測試所用的資料組成。進行對抗測試時，請選取最有可能引發模型產生問題輸出的測試資料。也就是說，要探究模型在所有可能危害類型中的行為，包括與安全政策相關的罕見或異常範例和極端情況。此外，測試資料也應涵蓋句子不同層面的多樣性，例如結構、意義和長度。如要進一步瞭解建構測試資料集時應考量的因素，請參閱 Google 的公平性責任 AI 做法。進階提示：
- 請使用自動化測試，而非傳統方法，也就是招募「紅隊」人員嘗試破解應用程式。在自動化測試中，「紅隊」是另一個語言模型，會找出可從受測模型引發有害輸出的輸入文字。
注意： 大型語言模型有時會針對相同的輸入提示產生不同輸出內容。您可能需要進行多輪測試，才能找出更多有問題的輸出內容。

監控問題

無論測試和減輕多少，您都無法保證完美，因此請預先規劃如何發現及處理發生的問題。常見做法包括為使用者設定監控管道，讓他們分享意見回饋 (例如按讚/倒讚評分)，以及進行使用者研究，主動向不同類型的使用者徵求意見回饋，如果使用模式與預期不同，這項做法就特別有價值。

進階提示

使用者對 AI 產品提供的意見回饋，可協助您選擇更合適的提示微調範例，進而大幅提升 AI 效能和使用者體驗。Google 的「人與 AI 指南」中的「意見回饋與控制」章節，重點說明設計意見回饋機制時應考量的要點。

後續步驟

請參閱安全性設定指南，瞭解如何透過 Gemini API 調整安全性設定。
請參閱提示簡介，開始撰寫第一個提示。