安全に関するガイダンス

生成 AI モデルは強力なツールですが、制限されることはありません。その汎用性と適用性は、出力が不正確、偏り、または偏りのある出力など、不適切です。そのためには、後処理と厳密な手動評価がそのような出力による害が及ぶリスクを制限します。

Gemini API が提供するモデルは、さまざまな用途に使用できるアプリケーションを開発しました。使用目的関数は、Gemini API またはウェブ版の Google AI Studio でのみ使用できます。Gemini API の使用には、生成 AI の使用禁止事項も適用されます。 Policy と Gemini API 利用規約。

大規模言語モデル（LLM）が役立つ理由の一つは、さまざまな言語タスクに対応できるクリエイティブなツールを開発しました。残念ながら、大規模言語モデルでは、LLM では提供できない出力をテキストメッセージを含む不適切、配慮に欠ける、事実と異なるコンテンツ。さらに、また、これらのモデルの汎用性が高いため、どのような種類の望ましくない出力が生成されるかを正確に予測できます。一方、 Gemini API は Google の AI を使って設計されています基本原則を念頭に置いておくと、開発者がモデルを責任を持って適用する方法を学びました。デベロッパーが安全で責任あるプロダクトを Gemini API にはコンテンツフィルタリングが組み込まれており、害の 4 つの側面にわたって調整可能な安全性設定。詳しくは、安全性設定ガイドをご覧ください。

このドキュメントは、セキュリティ違反が発生した場合に生じる可能性のある安全上のリスクを紹介することを目的としています。し、新たな安全設計と開発を推奨するおすすめします。（法律および規制によって制限が課せられる場合もあります。このような考慮事項はこのガイドの範囲外です）。

LLM を使用してアプリケーションを構築する場合は、次の手順をおすすめします。

アプリケーションの安全性リスクを理解する
安全性のリスクを軽減するための調整の検討
ユースケースに適した安全性テストを実施する
ユーザーからフィードバックを募り、使用状況をモニタリングする

次の段階に達するまで、調整とテストのフェーズを繰り返します。アプリケーションに最適なパフォーマンスを判断できます。

モデルの実装サイクル

アプリケーションの安全性に関するリスクを理解する

この文脈において、安全性とは LLM が有害な言葉やコンテンツを生成するなど、ユーザーに危害を与える固定観念を助長するようなものです。Gemini API を通じて利用できるモデルは、 Google の AI に関する原則を考慮して設計されているならびにその使用については、生成 AI の使用禁止対象ポリシーをご覧ください。API 一般的な言語モデルに対処するための組み込みの安全フィルタを提供インクルーシブネスの追求に努めています。固定観念の回避です。ただし、アプリケーションごとに異なるリスクが軽減されます。したがって、アプリケーションオーナーは、ユーザーとアプリケーションが引き起こす可能性のある損害を把握することアプリケーションで LLM を安全かつ責任を持って使用できるようにする。

この評価の一環として、危害が及ぶ可能性、その深刻度と緩和策を判断します。たとえば、事実に基づいてエッセイを生成するアプリは、架空のアプリを生成するアプリと比較して、誤った情報を避けることを重視しているストーリーを楽しみましょう。潜在的な安全上のリスクの調査を開始するための優れた方法エンドユーザーや、エンドユーザーの影響を受ける可能性がある結果を出力できますこれにはさまざまな形態があり、その一例として、ユーザーがどのように類似アプリを使用しているかを観察し、ユーザー調査、アンケート、非公式インタビューの実施向上します

高度なヒント

ターゲット内の多様な見込み顧客と会話するユーザーを適切に識別できるようにして、潜在的リスクをより広い視野で捉え、多様性を調整する必要に応じて追加できます。
AI リスク管理フレームワーク米国政府が発表したアメリカ国立標準技術研究所（NIST）は、 AI リスク管理に関する詳細なガイダンスと追加の学習リソースを提供します。
DeepMind の言語モデルから危害が及ぶ倫理的および社会的リスクを言語モデルがどのようにトレーニングされ、害を及ぼす可能性があります。

安全性のリスクを軽減するための調整を検討する

リスクを理解したら、次はリスクを軽減する方法を決定できます。できます。どのリスクに優先的に取り組むべきかを判断し、ソフトウェアのバグのトリアージと同様に、できます。優先順位が決まったらいくつかの緩和策も用意しています。多くの場合、単純な変更が変化を生み、リスクを軽減できます。

たとえば、アプリケーションを設計する際は、次の点を考慮してください。

モデル出力のチューニング: 許容される出力レベルをより適切に反映するようにアプリケーションのコンテキストです。チューニングにより、モデルの出力をより一貫性があり予測可能であるため、特定のリスクの軽減に役立ちます。
より安全な出力を実現する入力方法を提供する。正確な入力 LLM に与える情報が出力の品質に違いを生む可能性があります。入力プロンプトを試してみて、環境内で最も安全に機能するプロンプトを見つけるお客様に最適な UX を提供できるため容易になります。たとえば、ユーザーがここで選択するように制限して、入力プロンプトのプルダウンリストから選択することも、アプリのコンテキストで安全だとわかっているフレーズを選べます。
安全でない入力をブロックし、出力をフィルタして表示する前にユーザーです。単純なケースでは、ブロックリストを使用してプロンプトやレスポンスで安全でない単語やフレーズが含まれていたり、人間のレビュアーを必要とするそうしたコンテンツを手動で変更またはブロックできます。

注: 静的リストに基づいて自動的にブロックすると、語彙を使用することが多い特定のグループをターゲットに設定するなど。
トレーニング済みの分類器を使用して、各プロンプトに潜在的な有害性や敵対的シグナルですその後、戦略を検出された有害性の種類に基づいてリクエストを処理します。たとえば、明らかに敵対的または攻撃的である入力は、ブロックされ、既定のレスポンスを出力します。
高度なヒント
- シグナルによって出力が有害であると判断される場合アプリケーションでは、次のオプションを使用できます。
  - エラーメッセージまたは既定の出力を提供します。
  - 別の安全な出力を使用できる場合は、プロンプトをもう一度お試しください同じプロンプトでも、同じプロンプトで出力です。
故意の不正使用に対する安全保護対策を講じる。たとえば、各ユーザーに一意の ID が割り当てられ、ユーザークエリの量に制限が課されます。一定の期間に送信できますもう 1 つの対策として、プロンプトインジェクションを防止できます。SQL に似たプロンプトインジェクションインジェクションは、悪意のあるユーザーがプロンプトを入力プロンプトを入力プロンプトを送信するなど、モデルの出力を操作前の例をすべて無視するようにモデルに指示するものです。詳しくは、生成 AI の使用禁止に関するポリシーをご覧ください。
本質的にリスクの低いものに機能を調整する。 範囲が狭いタスク（例: 特定の文献からキーワードを抽出する）人間が監視する能力が高い（例: ショート動画の生成など）人間がレビューするコンテンツなど）であれば、多くの場合、リスクは低くなります。たとえば、メール返信を作成するアプリケーションを作成する代わりに、概要をひっくりかえるか提案するかを使用することになるでしょう。

ユースケースに適した安全性テストを実施する

テストは堅牢で安全なアプリケーションを構築するための重要な要素ですが、テストの範囲と戦略はさまざまです。たとえば、楽しむための俳句や、アプリケーションを開発したアプリケーションよりも深刻なリスクが低くなります。法律事務所が法的文書の要約や契約書の草案作成に活用できますしかし、俳句ジェネレータは幅広いユーザーが使用できるため、意図せず有害な入力が行われる可能性があり、大きくなります実装のコンテキストも重要です。たとえばなんらかの措置を行う前に、人間の専門家がレビューするアウトプットを含む有害な出力を生成する可能性が低いとみなされる可能性があります。そのような監視なしにアプリケーションを保護できます

変更とテストを何度か繰り返すことは珍しくないリリースする準備ができているかを確信できます。たとえば、比較的リスクは低いです。AI に関して特に有用なのは、次の 2 種類のテストです。アプリケーション:

安全ベンチマークでは、安全性に関する指標を設計します。どのように問題が発生する可能性が高く指標に基づいてアプリケーションのパフォーマンスを評価データセットを使用します最低限の金額と安全指標の許容レベルを確認してから、その期待に照らしてテスト結果を評価する関心のある指標を評価するテストに基づく評価データセットほとんど変わりません
高度なヒント
- 既製のアプローチに過剰に頼ることには注意が必要です。評価担当者を使用して独自のテストデータセットを構築し、アプリのコンテキストに合わせて調整できます。
- 指標が複数ある場合はトレードオフとしてある指標の変化が悪影響を及ぼす可能性があります。他のパフォーマンスエンジニアリングと同様に評価の最悪のケースのパフォーマンスに注目し平均的なパフォーマンスではなく
敵対的テストでは、事前に説明します。目標は対処すべき弱点を突き止めること是正手順を提示します。敵対的テストではアプリケーションの専門知識を持つ評価担当者が多大な時間と労力を必要とする - しかしこれを繰り返すほど問題を発見する可能性は高まり特にめったに発生しないイベントや説明します。
- 敵対的テストは ML を体系的に評価する方法与えられたときにどのように動作するかを学習する目的で、悪意のある、または意図せずに有害な入力:
  - 入力が悪意のあるものとなるのは、その入力が安全でない、または有害な出力を生成する生成モデルを利用して、特定のネガティブな宗教
  - 入力自体が有害な動作をする可能性がある場合、入力が無害だが有害な出力を生成する（例: テキストプロンプトに特定の民族の人物を表す生成モデルを人種差別的なコンテンツも受け取ります。
- 敵対的テストと標準的な評価の違いは、テストに使用するデータの構成。敵対的テストの場合は、出力を導き出す可能性が最も高いテストデータ行います。つまり、すべてのタイプのモデルに対するモデルの挙動を発生する可能性のある危害（希少な例や珍しい例、安全性ポリシーに関連するエッジケースも検出できますまた、文のさまざまな側面（構造、説明します。詳しくは、Google の責任ある AI への取り組みに関する実践方法公平性をご覧ください。
  高度なヒント
  - 使用自動テスト従来の「レッドチーム」チームにアプリケーションの問題を未然に防ぐことができます。自動テストでは、「レッドチーム」別の言語モデルで、入力されたテキストをテスト対象のモデルから有害な出力が引き出されます。
で確認できます。
注: LLM は、特定のトピックに対して異なる出力を生成する場合があることが同じ入力プロンプトを使用します。より多くの脅威を検出するために、複数回のテストが必要になる場合がある評価できます。

問題をモニタリングする

どれだけテストして軽減しても、完璧が保証されるわけではありません。そのため、発生する問題を特定して対処する方法を事前に計画する。コモンモニタリングチャネルを設定してユーザーがフィードバックを共有できるようにするなど、（高評価/低評価など）ユーザー調査を実施して積極的に情報を求める多様なユーザーからのフィードバックを収集できます。特に、使用パターンが予測と異なっています

高度なヒント

ユーザーが AI プロダクトにフィードバックを送ると、AI の大幅な改善につながるパフォーマンスやユーザーエクスペリエンスの推移をプロンプト調整に適した例を選択できます「フィードバックと制御の章 Google の People and AI ガイドブックのインフラストラクチャを設計する際に考慮すべき、フィードバックメカニズムがあります。

次のステップ

詳しくは、安全設定ガイドで、 Gemini API で利用可能な安全性設定。
プロンプトの概要を参照して、最初のプロンプトの作成を開始しました。