Google の最先端モデルである Gemini 2.5 Pro 試験運用版が利用可能になりました。詳細

このページは Cloud Translation API によって翻訳されました。

安全性設定

Gemini API には、プロトタイピングの段階で調整できる安全性の設定があり、アプリケーションに対してより厳しいまたは緩い安全性構成が必要かどうかを判断できます。これらの設定は 4 つのフィルタカテゴリで調整でき、特定の種類のコンテンツを制限または許可できます。

このガイドでは、Gemini API が安全性の設定とフィルタリングを処理する方法と、アプリケーションの安全性の設定を変更する方法について説明します。

安全フィルタ

Gemini API の調整可能な安全フィルタは、次のカテゴリに対応しています。

カテゴリ	説明
嫌がらせ	ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント。
ヘイトスピーチ	粗暴、無礼、または冒とく的なコンテンツ。
露骨な性表現	性行為やわいせつな内容に関する情報が含まれるコンテンツ。
危険	有害な行為を奨励、促進、または助長している。
市民の清廉性	選挙関連のクエリ。

これらのカテゴリは HarmCategory で定義されています。Gemini モデルは、HARM_CATEGORY_HARASSMENT、HARM_CATEGORY_HATE_SPEECH、HARM_CATEGORY_SEXUALLY_EXPLICIT、HARM_CATEGORY_DANGEROUS_CONTENT、HARM_CATEGORY_CIVIC_INTEGRITY のみをサポートしています。他のカテゴリはすべて、PaLM 2（従来版）モデルでのみ使用されます。

これらのフィルタを使用して、ユースケースに適したものを調整できます。たとえば、ビデオゲームのダイアログを作成している場合、ゲームの性質上、危険として評価されたコンテンツをより多く許容することを問題ないとみなす場合があります。

Gemini API には、調整可能な安全フィルタに加えて、児童の安全を脅かすコンテンツなど、重大な有害性に対する保護機能が組み込まれています。このような種類の有害行為は常にブロックされ、調整することはできません。

コンテンツセーフティフィルタリングレベル

Gemini API は、コンテンツが安全でない可能性のレベルを HIGH、MEDIUM、LOW、NEGLIGIBLE に分類します。

Gemini API は、重大度ではなく、コンテンツが安全でない確率に基づいてコンテンツをブロックします。コンテンツによっては、危害の重大度が高くても、安全でない確率が低くなるものもあるため、この点を考慮することが重要です。たとえば、次の文を比較します。

ロボットが私をパンチした。
ロボットが私を切り付けた。

安全でない確率は最初の文章の方が高くなりますが、2 つめの文章は暴力の観点で重大度が高いとみなすことができます。したがって、エンドユーザーへの悪影響を最小限に抑えながら、主要なユースケースをサポートするために必要となる、適切なレベルでのブロックを慎重にテストし、検討することが重要です。

リクエストごとの安全フィルタリング

安全性設定は、API に送信するリクエストごとに調整できます。リクエストを行うと、コンテンツが分析され、安全性評価が割り当てられます。安全性評価には、カテゴリと有害として分類される確率が含まれます。たとえば、嫌がらせのカテゴリが「高」の確率で安全でなかったためにコンテンツがブロックされた場合、返される安全性評価のカテゴリは HARASSMENT で、有害性の確率は HIGH に設定されます。

デフォルトでは、安全性の設定により、どのフィルタにおいても、安全でない確率が中程度以上のコンテンツ（プロンプトを含む）はブロックされます。このベースラインの安全性は、ほとんどのユースケースで機能するように設計されています。そのため、安全性の設定は、アプリケーションで一貫して必要とされる場合にのみ調整してください。

次の表に、カテゴリごとに調整できるブロック設定を示します。たとえば、ヘイトスピーチ カテゴリのブロック設定を [少量をブロック] に設定した場合、ヘイトスピーチコンテンツである確率が高いものはすべてブロックされますが、その確率の低いものは許可されます。

しきい値（Google AI Studio）	しきい値（API）	説明
ブロックなし	`BLOCK_NONE`	安全でないコンテンツの確率に関係なく、常に表示されます。
少量をブロック	`BLOCK_ONLY_HIGH`	安全でないコンテンツである確率が高い場合にブロックします。
一部をブロック	`BLOCK_MEDIUM_AND_ABOVE`	安全でないコンテンツの確率が中程度または高い場合にブロックします。
ほとんどをブロック	`BLOCK_LOW_AND_ABOVE`	コンテンツが安全でない確率が低い場合、中程度の場合、高い場合にブロックします。
なし	`HARM_BLOCK_THRESHOLD_UNSPECIFIED`	しきい値が指定されていません。デフォルトのしきい値を使用してブロックします。

しきい値が設定されていない場合、デフォルトのブロックしきい値は、市民の誠実性カテゴリを除くすべてのカテゴリで、[ブロックなし]（gemini-1.5-pro-002、gemini-1.5-flash-002、すべての新しい安定した GA モデルの場合）または [一部をブロック]（他のすべてのモデルの場合）です。

市民の健全性カテゴリのデフォルトのブロックしきい値は、Google AI Studio と Gemini API の両方で [ブロックなし]（gemini-2.0-flash、gemini-2.0-pro-exp-02-05、gemini-2.0-flash-lite というエイリアスを持つ gemini-2.0-flash-001 の場合）であり、Google AI Studio の他のすべてのモデルでは [ほとんどをブロック] です。

これらの設定は、生成サービスに対するリクエストごとに設定できます。詳しくは、HarmBlockThreshold API リファレンスをご覧ください。

安全性に関するフィードバック

generateContent は、安全性に関するフィードバックを含む GenerateContentResponse を返します。

プロンプトのフィードバックは promptFeedback に含まれます。promptFeedback.blockReason が設定されている場合、プロンプトのコンテンツがブロックされています。

レスポンス候補のフィードバックは、Candidate.finishReason と Candidate.safetyRatings に含まれます。レスポンスコンテンツがブロックされ、finishReason が SAFETY の場合、safetyRatings を調べて詳細を確認できます。ブロックされたコンテンツは返されません。