本頁面由 Cloud Translation API 翻譯而成。

負責任的生成式 AI 技術工具包

工具和指南：秉持負責態度設計、建構及評估開放式 AI 模型。

負責任的應用程式設計

定義模型行為規則、建立安全可靠的應用程式，並與使用者保持透明的溝通。

安全性對齊

瞭解快速偵錯技術，以及微調和 RLHF 的相關指南，讓 AI 模型符合安全政策。

模型評估

透過 LLM 比較工具，查看指南和資料，以便針對安全性、公平性和事實性進行穩健的模型評估。

保護措施

使用現成解決方案部署安全分類器，或透過逐步教學課程自行建構。

設計負責任的做法

主動找出應用程式的潛在風險，並定義系統層級方法，為使用者打造安全可靠的應用程式。

開始使用

定義系統層級政策

決定應用程式應產生哪種類型的內容，以及應避免產生哪種類型的內容。

安全設計

定義整體導入風險緩解技術的方法，並考量技術和業務的權衡。

瞭解詳情

開誠布公

透過模型卡等構件說明您的做法。

查看範本

安全的 AI 系統

請參考安全 AI 架構 (SAIF) 中所述的 AI 專屬安全風險和改善方法。

對齊模型

使用提示和調整技巧，讓模型符合特定安全政策。

開始使用

製作更安全、更可靠的提示

運用 LLM 的力量，透過模型對齊程式庫製作更安全的提示範本。

為安全性調整模型

調整模型，讓模型符合安全性和內容政策，進而控制模型行為。

調查模型提示

透過學習技術可解釋性工具 (LIT) 不斷改善，建立安全且實用的提示。

評估模型

運用我們的指南和工具，評估模型在安全性、公平性和事實準確性方面的風險。

開始使用

LLM 比較器

使用 LLM 比較工具並排評估，以評估模型之間的回應差異、同一個模型的不同提示，甚至是模型的不同調整

模型評估指南

瞭解紅隊演練的最佳做法，並根據學術基準評估模型，以便評估安全性、公平性和事實性方面的風險。

使用安全防護措施

篩選應用程式的輸入和輸出內容，並保護使用者免於遭遇不良結果。

開始使用

SynthID 文字

用於為模型產生的文字加上浮水印，並偵測這些文字。

SynthID 文字浮水印

ShieldGemma

一系列以 Gemma 2 建構的內容安全性分類器，提供 2B、9B 和 27B 三種大小。

ShieldGemma 內容安全性分類器

靈活分類器

使用參數有效調整 (PET) 技術，針對特定政策建立安全分類器，且只需相對少的訓練資料

建立安全分類器

檢查 AI 安全性

透過 API 和監控資訊主頁，確保 AI 安全性符合內容政策。

檢查 AI 安全性

文字管理服務

使用這個 Google Cloud Natural Language API 偵測安全屬性清單，包括各種可能有害的類別和可能較敏感的主題，且在特定用量限制下可免費使用。

Perspective API

使用這項免費的 Google Jigsaw API 識別「惡意」評論，減少網路上的惡意內容，確保對話內容健康。

Perspective API