Gemini API cung cấp các chế độ cài đặt an toàn mà bạn có thể điều chỉnh trong giai đoạn tạo mẫu thử để xác định xem ứng dụng của bạn có cần cấu hình an toàn hạn chế hơn hay ít hạn chế hơn hay không. Bạn có thể điều chỉnh các chế độ cài đặt này trên 4 danh mục bộ lọc để hạn chế hoặc cho phép một số loại nội dung.
Hướng dẫn này trình bày cách Gemini API xử lý các chế độ cài đặt an toàn và tính năng lọc, cũng như cách bạn có thể thay đổi các chế độ cài đặt an toàn cho ứng dụng của mình.
Bộ lọc an toàn
Các bộ lọc an toàn có thể điều chỉnh của Gemini API bao gồm các danh mục sau:
| Danh mục | Mô tả |
|---|---|
| Quấy rối | Bình luận tiêu cực hoặc gây hại nhắm vào danh tính và/hoặc các thuộc tính được bảo vệ |
| Lời nói hận thù | Nội dung thô lỗ, thiếu tôn trọng hoặc tục tĩu. |
| Nội dung khiêu dâm | Chứa nội dung tham khảo đến các hành vi tình dục hoặc nội dung tục tĩu khác. |
| Nguy hiểm | Quảng bá, tạo điều kiện hoặc khuyến khích các hành vi gây hại. |
Các danh mục này được xác định trong HarmCategory. Bạn có thể sử dụng các bộ lọc này để điều chỉnh nội dung phù hợp với trường hợp sử dụng của mình. Ví dụ: nếu đang xây dựng đoạn hội thoại trong trò chơi điện tử, bạn có thể cho rằng việc cho phép nhiều nội dung được phân loại là Nguy hiểm là chấp nhận được do tính chất của trò chơi.
Ngoài các bộ lọc an toàn có thể điều chỉnh, Gemini API còn có các biện pháp bảo vệ tích hợp sẵn chống lại các hành vi gây hại cốt lõi, chẳng hạn như nội dung gây nguy hiểm cho sự an toàn của trẻ em. Các loại hành vi gây hại này luôn bị chặn và không thể điều chỉnh.
Mức độ lọc an toàn nội dung
Gemini API phân loại mức độ xác suất của nội dung không an toàn là HIGH, MEDIUM, LOW hoặc NEGLIGIBLE.
Gemini API chặn nội dung dựa trên xác suất nội dung không an toàn chứ không dựa trên mức độ nghiêm trọng. Bạn cần cân nhắc điều này vì một số nội dung có thể có xác suất không an toàn thấp, mặc dù mức độ nghiêm trọng của hành vi gây hại vẫn có thể cao. Ví dụ: so sánh các câu sau:
- Robot đã đấm tôi.
- Robot đã chém tôi.
Câu đầu tiên có thể có xác suất không an toàn cao hơn, nhưng bạn có thể cho rằng câu thứ hai có mức độ nghiêm trọng cao hơn về mặt bạo lực. Do đó, bạn cần kiểm tra cẩn thận và cân nhắc mức độ chặn phù hợp để hỗ trợ các trường hợp sử dụng chính, đồng thời giảm thiểu tác hại cho người dùng cuối.
Lọc an toàn theo yêu cầu
Bạn có thể điều chỉnh các chế độ cài đặt an toàn cho từng yêu cầu mà bạn gửi đến API. Khi bạn gửi một yêu cầu, nội dung sẽ được phân tích và chỉ định mức phân loại an toàn. Mức phân loại an toàn bao gồm danh mục và xác suất phân loại hành vi gây hại. Ví dụ: nếu nội dung bị chặn do danh mục quấy rối có xác suất cao, thì mức phân loại an toàn được trả về sẽ có danh mục bằng HARASSMENT và xác suất gây hại được đặt thành HIGH.
Do tính an toàn vốn có của mô hình, các bộ lọc bổ sung được đặt thành Tắt theo mặc định. Nếu chọn bật các bộ lọc này, bạn có thể định cấu hình hệ thống để chặn nội dung dựa trên xác suất không an toàn. Hành vi mặc định của mô hình bao gồm hầu hết các trường hợp sử dụng, vì vậy, bạn chỉ nên điều chỉnh các chế độ cài đặt này nếu cần thiết cho ứng dụng của mình.
Bảng sau đây mô tả các chế độ cài đặt chặn mà bạn có thể điều chỉnh cho từng danh mục. Ví dụ: nếu bạn đặt chế độ cài đặt chặn thành Chặn một số cho danh mục Lời nói hận thù , thì mọi nội dung có xác suất cao là nội dung lời nói hận thù đều bị chặn. Tuy nhiên, mọi nội dung có xác suất thấp hơn đều được cho phép.
| Ngưỡng (Google AI Studio) | Ngưỡng (API) | Mô tả |
|---|---|---|
| Tắt | OFF |
Tắt bộ lọc an toàn |
| Không chặn | BLOCK_NONE |
Luôn hiển thị bất kể xác suất nội dung không an toàn |
| Chặn một số | BLOCK_ONLY_HIGH |
Chặn khi có xác suất cao về nội dung không an toàn |
| Chặn một số | BLOCK_MEDIUM_AND_ABOVE |
Chặn khi có xác suất trung bình hoặc cao về nội dung không an toàn |
| Chặn hầu hết | BLOCK_LOW_AND_ABOVE |
Chặn khi có xác suất thấp, trung bình hoặc cao về nội dung không an toàn |
| Không áp dụng | HARM_BLOCK_THRESHOLD_UNSPECIFIED |
Ngưỡng không được chỉ định, chặn bằng ngưỡng mặc định |
Nếu không đặt ngưỡng, ngưỡng chặn mặc định sẽ là Tắt cho các mô hình Gemini 2.5 và 3.
Bạn có thể đặt các chế độ cài đặt này cho từng yêu cầu mà bạn gửi đến dịch vụ tạo.
Hãy xem tài liệu tham khảo API HarmBlockThreshold
để biết thông tin chi tiết.
Ý kiến phản hồi về mức độ an toàn
generateContent trả về GenerateContentResponse bao gồm ý kiến phản hồi về mức độ an toàn.
Ý kiến phản hồi về câu lệnh được đưa vào
promptFeedback. Nếu promptFeedback.blockReason được đặt, thì nội dung của câu lệnh đã bị chặn.
Ý kiến phản hồi về ứng viên phản hồi được đưa vào
Candidate.finishReason và
Candidate.safetyRatings. Nếu nội dung phản hồi bị chặn và finishReason là SAFETY, bạn có thể kiểm tra safetyRatings để biết thêm thông tin chi tiết. Nội dung bị chặn sẽ không được trả về.
Điều chỉnh chế độ cài đặt an toàn
Phần này trình bày cách điều chỉnh các chế độ cài đặt an toàn trong cả Google AI Studio và trong mã của bạn.
Google AI Studio
Bạn có thể điều chỉnh các chế độ cài đặt an toàn trong Google AI Studio.
Nhấp vào Chế độ cài đặt an toàn trong phần Chế độ cài đặt nâng cao trên bảng điều khiển Chạy chế độ cài đặt để mở cửa sổ Chạy chế độ cài đặt an toàn. Trong cửa sổ này, bạn có thể sử dụng thanh trượt để điều chỉnh mức độ lọc nội dung theo từng danh mục an toàn:
Khi bạn gửi một yêu cầu (ví dụ: bằng cách hỏi mô hình một câu hỏi), thông báo Nội dung bị chặn sẽ xuất hiện nếu nội dung của yêu cầu bị chặn. Để xem thêm thông tin chi tiết, hãy di chuột qua văn bản Nội dung bị chặn để xem danh mục và xác suất phân loại hành vi gây hại.
Ví dụ về mã
Đoạn mã sau đây cho biết cách đặt các chế độ cài đặt an toàn trong lệnh gọi GenerateContent. Thao tác này sẽ đặt ngưỡng cho danh mục lời nói hận thù (HARM_CATEGORY_HATE_SPEECH). Việc đặt danh mục này thành BLOCK_LOW_AND_ABOVE sẽ chặn mọi nội dung có xác suất thấp hoặc cao hơn là lời nói hận thù. Để hiểu các chế độ cài đặt ngưỡng, hãy xem phần Lọc an toàn
theo yêu cầu.
Python
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Some potentially unsafe prompt",
config=types.GenerateContentConfig(
safety_settings=[
types.SafetySetting(
category=types.HarmCategory.HARM_CATEGORY_HATE_SPEECH,
threshold=types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
),
]
)
)
print(response.text)
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
config := &genai.GenerateContentConfig{
SafetySettings: []*genai.SafetySetting{
{
Category: "HARM_CATEGORY_HATE_SPEECH",
Threshold: "BLOCK_LOW_AND_ABOVE",
},
},
}
response, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Some potentially unsafe prompt."),
config,
)
if err != nil {
log.Fatal(err)
}
fmt.Println(response.Text())
}
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const safetySettings = [
{
category: "HARM_CATEGORY_HATE_SPEECH",
threshold: "BLOCK_LOW_AND_ABOVE",
},
];
async function main() {
const response = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Some potentially unsafe prompt.",
config: {
safetySettings: safetySettings,
},
});
console.log(response.text);
}
await main();
Java
SafetySetting hateSpeechSafety = new SafetySetting(HarmCategory.HATE_SPEECH,
BlockThreshold.LOW_AND_ABOVE);
GenerativeModel gm = new GenerativeModel(
"gemini-3-flash-preview",
BuildConfig.apiKey,
null, // generation config is optional
Arrays.asList(hateSpeechSafety)
);
GenerativeModelFutures model = GenerativeModelFutures.from(gm);
REST
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-X POST \
-d '{
"safetySettings": [
{"category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_LOW_AND_ABOVE"}
],
"contents": [{
"parts":[{
"text": "'\''Some potentially unsafe prompt.'\''"
}]
}]
}'
Các bước tiếp theo
- Xem tài liệu tham khảo API để tìm hiểu thêm về toàn bộ API.
- Xem hướng dẫn về mức độ an toàn để có cái nhìn tổng quan về các yếu tố cần cân nhắc về mức độ an toàn khi phát triển bằng các mô hình ngôn ngữ lớn (LLM).
- Tìm hiểu thêm về cách đánh giá xác suất so với mức độ nghiêm trọng từ nhóm Jigsaw
- Tìm hiểu thêm về các sản phẩm góp phần tạo ra các giải pháp an toàn như Perspective API. * Bạn có thể sử dụng các chế độ cài đặt an toàn này để tạo trình phân loại độc hại. Hãy xem ví dụ về phân loại để bắt đầu.
