責任ある生成 AI ツールキット
責任を持ってオープン AI モデルを設計、構築、評価するためのツールとガイダンス。
責任あるアプリケーション設計
モデルの動作に関するルールを定義し、安全で責任あるアプリケーションを作成し、ユーザーとの透明性の高いコミュニケーションを維持します。
安全性に関する調整
プロンプト デバッグ手法と、ファインチューニングと RLHF による AI モデルと安全性ポリシーの整合性確保に関するガイダンスを確認する。
モデルの評価
LLM 比較ツールを使用して、安全性、公平性、事実性に関する堅牢なモデル評価を行うためのガイダンスとデータをご確認ください。
安全保護対策
既製のソリューションを使用して安全性分類システムをデプロイするか、チュートリアルの手順に沿って独自の分類システムを構築します。
責任あるアプローチを設計する
アプリケーションの潜在的なリスクを事前に特定し、システム レベルのアプローチを定義して、ユーザーにとって安全で責任あるアプリケーションを構築します。
使ってみる
安全性を重視した設計
技術的なトレードオフとビジネス上のトレードオフを考慮して、リスク軽減手法を導入するための全体的なアプローチを定義します。
透明性を確保する
モデルカードなどのアーティファクトを使用してアプローチを伝える。
セキュアな AI システム
Secure AI Framework(SAIF)で強調されている、AI 固有のセキュリティ リスクと修正方法を検討します。
モデルを調整する
プロンプトとチューニングの手法を使用して、モデルを特定の安全性ポリシーに合わせます。
使ってみる
安全性を確保するためにモデルをチューニングする
安全性とコンテンツのポリシーに合わせてモデルをチューニングすることで、モデルの動作を制御します。
モデル プロンプトを調査する
Learning Interpretability Tool(LIT)を使用して反復的な改善を行い、安全で役立つプロンプトを作成します。
モデルを評価する
Google のガイダンスとツールを使用して、安全性、公平性、事実の正確性に関するモデルのリスクを評価する。
使ってみる
LLM 比較ツール
LLM Comparator を使用して並列評価を行い、モデル間のレスポンスの違い、同じモデルの異なるプロンプト、モデルの異なるチューニングを定性的に評価する
モデル評価のガイドライン
レッドチームのベスト プラクティスを学び、学術的なベンチマークと比較してモデルを評価し、安全性、公平性、事実性に関する悪影響を評価します。
安全保護対策で保護する
アプリケーションの入力と出力をフィルタし、望ましくない結果からユーザーを保護します。
使ってみる
SynthID テキスト
モデルによって生成されたテキストに透かしを入れ、検出するためのツール。
ShieldGemma
Gemma 2 上に構築された一連のコンテンツ セーフティ分類システム。2B、9B、27B の 3 つのサイズで利用できます。
アジャイル分類器
比較的少ないトレーニング データでパラメータ エフィシエント チューニング(PET)を使用して、特定のポリシーの安全分類器を作成する
AI の安全性を確認する
API とモニタリング ダッシュボードを使用して、コンテンツ ポリシーに対する AI の安全性コンプライアンスを確保します。
テキスト管理サービス
特定の使用上限まで無料で利用できるこの Google Cloud Natural Language API を使用して、安全性属性のリストを検出します。安全性属性には、有害な可能性のあるさまざまなカテゴリや、機密情報とみなされる可能性があるトピックが含まれます。
Perspective API
この無料の Google Jigsaw API を使用して「有害」なコメントを特定し、オンラインの有害性を軽減して健全な会話を実現しましょう。