責任ある生成 AI ツールキット
責任を持ってオープン AI モデルを設計、構築、評価するためのツールとガイダンス。
責任あるアプリケーション設計
モデルの動作に関するルールを定義し、安全で説明責任のあるアプリケーションを作成し、ユーザーとの透明性の高いコミュニケーションを維持します。
安全性の調整
AI モデルを安全ポリシーに適合させるためのファインチューニングと RLHF のためのプロンプト デバッグ手法とガイダンスについて説明します。
モデルの評価
LLM コンパレータを使用して、安全性、公平性、真正性に関する堅牢なモデル評価を行うためのガイダンスとデータを見つけます。
安全保護対策
安全性分類器は、既製のソリューションを使用してデプロイすることも、詳細なチュートリアルに沿って独自に構築することもできます。
責任あるアプローチの設計
アプリケーションの潜在的なリスクを事前に特定し、ユーザーのために安全で責任あるアプリケーションを構築するためのシステムレベルのアプローチを定義します。
始める
システムレベルのポリシーを定義する
アプリで生成すべきコンテンツのタイプと生成すべきでないコンテンツのタイプを決定します。
- <ph type="x-smartling-placeholder"></ph> ポリシーを定義する <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> 例を見る <ph type="x-smartling-placeholder">
安全性を重視した設計
技術的なトレードオフとビジネス上のトレードオフを考慮して、リスク軽減手法を実装するための全体的なアプローチを定義します。
- <ph type="x-smartling-placeholder"></ph> 詳細 <ph type="x-smartling-placeholder">
透明性を確保する
モデルカードなどのアーティファクトを使用してアプローチを伝えます。
- <ph type="x-smartling-placeholder"></ph> テンプレートを見る <ph type="x-smartling-placeholder">
安全な AI システム
Secure AI Framework(SAIF)で強調表示されている AI 固有のセキュリティ リスクと修復方法を検討します。
- <ph type="x-smartling-placeholder"></ph> Google のセキュア AI フレームワーク <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> ドキュメント <ph type="x-smartling-placeholder">
モデルの調整
プロンプトとチューニングの手法を使用して、モデルを特定の安全性ポリシーに合わせて調整します。
始める
モデルのプロンプトを調査する
Learning Interpretability Tool(LIT)による反復改善により、安全で有用なプロンプトを構築できます。
- <ph type="x-smartling-placeholder"></ph> 今すぐ試す <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> Learning Interpretability Tool <ph type="x-smartling-placeholder">
安全性確保のためにモデルを調整する
安全性とコンテンツに関するポリシーに合わせてモデルをチューニングすることで、モデルの動作を制御します。
- <ph type="x-smartling-placeholder"></ph> チューニングの詳細 <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> SFT の調整の詳細 <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> RLHF のチューニングの詳細 <ph type="x-smartling-placeholder">
モデルを評価する
Google のガイダンスとツールを使用して、安全性、公平性、事実の正確性に関するモデルのリスクを評価します。
始める
LLM コンパレータ
LLM Comparator を使用して比較評価を行い、モデル間のレスポンスの差、同じモデルに対する異なるプロンプト、さらにはモデルの異なるチューニングを定性的に評価
- <ph type="x-smartling-placeholder"></ph> デモを試す <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> LLM コンパレータの詳細 <ph type="x-smartling-placeholder">
モデル評価のガイドライン
レッドチームのベスト プラクティスについて学び、学術的ベンチマークに照らしてモデルを評価し、安全性、公平性、真正性に関する有害性を評価します。
- <ph type="x-smartling-placeholder"></ph> 詳細 <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> ベンチマークを見る <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> レッドチームのベスト プラクティスを見る <ph type="x-smartling-placeholder">
安全保護対策による保護
アプリケーションの入力と出力をフィルタし、望ましくない結果からユーザーを保護します。
始める
機敏な分類器
比較的少ないトレーニング データでパラメータ エフィシエント チューニング(PET)を使用して特定のポリシーの安全分類器を作成する
- <ph type="x-smartling-placeholder"></ph> 安全性分類を作成する <ph type="x-smartling-placeholder">
テキスト管理サービス
この Google Cloud Natural Language API を使用して無料で利用できる、特定の使用量上限以下であれば無料でご利用いただける、有害な可能性があるさまざまなカテゴリや機密性が高いとみなされる可能性のある、有害な可能性のあるさまざまなカテゴリやトピックなど、安全性属性のリストを検出します。
- <ph type="x-smartling-placeholder"></ph> Cloud Natural Language API <ph type="x-smartling-placeholder">
- <ph type="x-smartling-placeholder"></ph> Cloud Natural Language の料金 <ph type="x-smartling-placeholder">
Perspective API
「有害」であることを特定するこの無料の Google Jigsaw API を使ってコメントを投稿し、オンラインの有害性を軽減し、健全な対話を確保できます。
- <ph type="x-smartling-placeholder"></ph> Perspective API <ph type="x-smartling-placeholder">