責任ある生成 AI ツールキット
責任を持ってオープン AI モデルを設計、構築、評価するためのツールとガイダンス。
責任あるアプリケーション設計
モデルの動作に関するルールを定義し、安全で説明責任のあるアプリケーションを作成し、ユーザーとの透明性の高いコミュニケーションを維持します。
安全性に関する調整
AI モデルを安全ポリシーに適合させるためのファインチューニングと RLHF のためのプロンプト デバッグ手法とガイダンスについて説明します。
モデルの評価
LLM 比較ツールを使用して、安全性、公平性、事実性に関する堅牢なモデル評価を行うためのガイダンスとデータをご確認ください。
安全保護対策
安全性分類器は、既製のソリューションを使用してデプロイすることも、詳細なチュートリアルに沿って独自に構築することもできます。
責任あるアプローチの設計
アプリケーションの潜在的なリスクを事前に特定し、システム レベルのアプローチを定義して、ユーザーにとって安全で責任あるアプリケーションを構築します。
使ってみる
システムレベルのポリシーを定義する
アプリで生成すべきコンテンツのタイプと生成すべきでないコンテンツのタイプを決定します。
安全性を重視した設計
技術的なトレードオフとビジネス上のトレードオフを考慮して、リスク軽減手法を実装するための全体的なアプローチを定義します。
透明性を確保する
モデルカードなどのアーティファクトを使用してアプローチを伝えます。
セキュアな AI システム
Secure AI Framework(SAIF)で強調されている、AI 固有のセキュリティ リスクと修正方法を検討します。
モデルの調整
プロンプトとチューニングの手法を使用して、モデルを特定の安全性ポリシーに合わせて調整します。
使ってみる
より安全で堅牢なプロンプトを作成する
LLM の力を利用して、モデル調整ライブラリでより安全なプロンプト テンプレートを作成できます。
安全性確保のためにモデルを調整する
安全性とコンテンツに関するポリシーに合わせてモデルをチューニングすることで、モデルの動作を制御します。
モデル プロンプトを調査する
Learning Interpretability Tool(LIT)を使用して反復的な改善を行い、安全で役立つプロンプトを作成します。
モデルを評価する
Google のガイダンスとツールを使用して、安全性、公平性、事実の正確性に関するモデルのリスクを評価する。
使ってみる
LLM 比較ツール
LLM Comparator を使用して比較評価を行い、モデル間のレスポンスの差、同じモデルに対する異なるプロンプト、さらにはモデルの異なるチューニングを定性的に評価
モデル評価のガイドライン
レッドチームのベスト プラクティスを学び、学術的なベンチマークと比較してモデルを評価し、安全性、公平性、事実性に関する悪影響を評価します。
安全保護対策で保護する
アプリケーションの入力と出力をフィルタし、望ましくない結果からユーザーを保護します。
使ってみる
SynthID テキスト
モデルによって生成されたテキストに透かしを入れ、検出するためのツール。
ShieldGemma
Gemma 2 上に構築された一連のコンテンツ セーフティ分類システム。2B、9B、27B の 3 つのサイズで利用できます。
アジャイル分類器
比較的少ないトレーニング データでパラメータ エフィシエント チューニング(PET)を使用して特定のポリシーの安全分類器を作成する
AI の安全性をチェック
API とモニタリング ダッシュボードを使用して、コンテンツ ポリシーに対する AI の安全性に関するコンプライアンスを確保します。
テキスト管理サービス
この Google Cloud Natural Language API を使用して無料で利用できる、特定の使用量上限以下であれば無料でご利用いただける、有害な可能性のあるさまざまなカテゴリや機密性が高いとみなされる可能性のある、有害な可能性のあるさまざまなカテゴリやトピックなど、安全性属性のリストを検出します。
Perspective API
この無料の Google Jigsaw API を使用して「有害」なコメントを特定し、オンラインの有害性を軽減して健全な会話を実現しましょう。