Cài đặt an toàn

Hướng dẫn này mô tả các chế độ cài đặt an toàn có thể điều chỉnh dành cho API Gemini. Trong giai đoạn tạo mẫu, bạn có thể điều chỉnh các chế độ cài đặt an toàn ở 4 chiều để đánh giá nhanh xem ứng dụng của bạn có yêu cầu cấu hình hạn chế nhiều hơn hay ít hơn. Theo mặc định, các chế độ cài đặt an toàn chặn nội dung (bao gồm cả lời nhắc) có xác suất không an toàn trên mọi phương diện từ trung bình hoặc cao hơn. Mức an toàn cơ sở này được thiết kế để hoạt động cho hầu hết các trường hợp sử dụng. Vì vậy, bạn chỉ nên điều chỉnh các chế độ cài đặt an toàn nếu đó là yêu cầu nhất quán đối với ứng dụng của bạn.

Bộ lọc an toàn

Ngoài các bộ lọc an toàn có thể điều chỉnh, API Gemini còn tích hợp sẵn các biện pháp bảo vệ chống lại các mối nguy hại chính, chẳng hạn như nội dung gây nguy hiểm cho sự an toàn của trẻ em. Những loại tác hại này luôn bị chặn và không thể điều chỉnh.

Bộ lọc an toàn có thể điều chỉnh bao gồm các danh mục sau:

  • Hành vi quấy rối
  • Lời nói hận thù
  • Nội dung khiêu dâm
  • Nguy hiểm

Các chế độ cài đặt này cho phép bạn, với vai trò nhà phát triển, xác định những chế độ cài đặt phù hợp với trường hợp sử dụng của mình. Ví dụ: nếu đang xây dựng một hội thoại trong trò chơi điện tử, bạn có thể cho phép thêm nội dung được đánh giá là nguy hiểm do tính chất của trò chơi. Sau đây là một vài ví dụ về trường hợp sử dụng khác có thể cần linh hoạt trong các chế độ cài đặt an toàn này:

Trường hợp sử dụng Danh mục
Ứng dụng đào tạo về chống quấy rối Lời nói hận thù, Khiêu dâm
Người viết kịch bản Khiêu dâm, Nguy hiểm
Thuật toán phân loại độc hại Hành vi quấy rối, nguy hiểm

Xác suất so với mức độ nghiêm trọng

API Gemini chặn nội dung dựa trên xác suất của nội dung là không an toàn chứ không phải mức độ nghiêm trọng. Đây là điều quan trọng cần cân nhắc vì một số nội dung có xác suất không an toàn ở mức thấp mặc dù mức độ nghiêm trọng của mối nguy hại vẫn có thể cao. Ví dụ: so sánh các câu:

  1. Rô-bốt đó đã đấm tôi.
  2. Rô-bốt chém tôi.

Câu 1 có thể dẫn đến xác suất không an toàn cao hơn, nhưng bạn có thể coi câu 2 là câu 2 có mức độ nghiêm trọng cao hơn về mặt bạo lực.

Do đó, mỗi nhà phát triển phải kiểm thử cẩn thận và xem xét mức độ chặn thích hợp cần thiết để hỗ trợ các trường hợp sử dụng chính của họ, đồng thời giảm thiểu thiệt hại cho người dùng cuối.

Chế độ cài đặt an toàn

Chế độ cài đặt an toàn nằm trong yêu cầu bạn gửi tới dịch vụ tạo sinh. Bạn có thể điều chỉnh chế độ cài đặt cho mỗi yêu cầu mà bạn gửi đến API. Bảng sau đây liệt kê các danh mục mà bạn có thể đặt và mô tả loại tác hại của mỗi danh mục.

Danh mục Nội dung mô tả
Hành vi quấy rối Bình luận tiêu cực hoặc gây hại nhắm đến danh tính và/hoặc các thuộc tính được bảo vệ.
Lời nói hận thù Nội dung thô tục, khiếm nhã hoặc thô tục.
Nội dung khiêu dâm Chứa thông tin liên quan đến các hoạt động tình dục hoặc nội dung đồi truỵ khác.
Nguy hiểm Quảng bá, tạo điều kiện hoặc khuyến khích việc thực hiện hành động gây hại.

Những định nghĩa này cũng nằm trong tài liệu tham khảo API. Các mô hình Gemini chỉ hỗ trợ HARM_CATEGORY_HARASSMENT, HARM_CATEGORY_HATE_SPEECH, HARM_CATEGORY_SEXUALLY_EXPLICITHARM_CATEGORY_DANGEROUS_CONTENT. Các danh mục khác được mô hình PaLM 2 (Cũ) sử dụng.

Bảng sau đây mô tả các chế độ cài đặt chặn mà bạn có thể điều chỉnh cho từng danh mục. Ví dụ: nếu bạn đặt chế độ cài đặt chặn thành Chặn ít cho danh mục Lời nói hận thù, thì mọi nội dung có nhiều khả năng là nội dung lời nói hận thù đều sẽ bị chặn. Tuy nhiên, chúng tôi cho phép mọi trường hợp có xác suất thấp hơn.

Nếu bạn không đặt chính sách này, thì chế độ cài đặt chặn mặc định là Chặn một số danh mục đối với tất cả các danh mục.

Ngưỡng (Google AI Studio) Ngưỡng (API) Nội dung mô tả
Không chặn BLOCK_NONE Luôn hiển thị bất kể xác suất nội dung không an toàn có thể xuất hiện
Chặn một vài BLOCK_ONLY_HIGH Chặn khi nội dung có nhiều khả năng không an toàn
Chặn một số BLOCK_MEDIUM_AND_ABOVE Chặn khi nội dung không an toàn có xác suất trung bình hoặc cao
Chặn hầu hết BLOCK_LOW_AND_ABOVE Chặn khi nội dung không an toàn có khả năng xuất hiện ở mức thấp, trung bình hoặc cao
HARM_BLOCK_THRESHOLD_UNSPECIFIED Chưa chỉ định ngưỡng, hãy chặn bằng cách sử dụng ngưỡng mặc định

Bạn có thể thiết lập các chế độ cài đặt này cho mỗi yêu cầu mà bạn đưa ra đối với dịch vụ tạo sinh. Hãy xem Tài liệu tham khảo API HarmBlockThreshold để biết thông tin chi tiết.

Phản hồi về an toàn

generateContent trả về một GenerateContentResponse có bao gồm ý kiến phản hồi về an toàn.

Ý kiến phản hồi về lời nhắc cũng có trong promptFeedback. Nếu bạn đặt promptFeedback.blockReason, thì nội dung của lời nhắc đã bị chặn.

Ý kiến phản hồi của đề xuất trả lời được đưa vào finishReasonsafetyRatings. Nếu nội dung phản hồi bị chặn và finishReasonSAFETY, thì bạn có thể kiểm tra safetyRatings để biết thêm chi tiết. Xếp hạng an toàn bao gồm danh mục và xác suất phân loại tác hại. Nội dung đã bị chặn sẽ không được trả về.

Xác suất được trả về tương ứng với mức độ tin cậy của khối như trong bảng sau:

Xác suất Nội dung mô tả
KHÔNG BẮT BUỘC Nội dung có xác suất không an toàn là không đáng kể
THẤP Nội dung có ít khả năng trở nên không an toàn
VỪA PHẢI Nội dung có xác suất không an toàn trung bình
CAO Nội dung có nhiều khả năng không an toàn

Ví dụ: nếu nội dung bị chặn do danh mục quấy rối có xác suất cao, thì mức phân loại an toàn được trả về sẽ có danh mục bằng HARASSMENT và xác suất gây hại được đặt thành HIGH.

Chế độ cài đặt an toàn trong Google AI Studio

Bạn cũng có thể điều chỉnh các chế độ cài đặt an toàn trong Google AI Studio, nhưng không thể tắt các chế độ này. Để thực hiện việc này, trong phần Run settings (Chạy chế độ cài đặt), hãy nhấp vào Edit safety settings (Chỉnh sửa chế độ cài đặt an toàn):

Nút cài đặt an toàn

Ngoài ra, hãy dùng các nút để điều chỉnh từng chế độ cài đặt:

Nút cài đặt an toàn

Thông báo No Content (Không có nội dung) sẽ xuất hiện nếu nội dung bị chặn. Để xem thêm chi tiết, hãy giữ con trỏ trên mục Không có nội dung rồi nhấp vào An toàn.

Ví dụ về mã

Phần này cho biết cách sử dụng các chế độ cài đặt an toàn trong mã bằng cách sử dụng thư viện ứng dụng python.

Ví dụ về yêu cầu

Sau đây là một đoạn mã python cho biết cách đặt các chế độ cài đặt an toàn trong lệnh gọi GenerateContent. Thao tác này sẽ đặt danh mục tác hại HarassmentHate speech thành BLOCK_LOW_AND_ABOVE, nhằm chặn mọi nội dung có xác suất quấy rối hoặc lời nói hận thù từ thấp hoặc cao.

from google.generativeai.types import HarmCategory, HarmBlockThreshold

model = genai.GenerativeModel(model_name='gemini-1.5-flash')
response = model.generate_content(
    ['Do these look store-bought or homemade?', img],
    safety_settings={
        HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
    }
)

Ví dụ về phản hồi

Dưới đây là một đoạn mã để phân tích cú pháp ý kiến phản hồi về mức độ an toàn của phản hồi.

try:
  print(response.text)
except ValueError:
  # If the response doesn't contain text, check if the prompt was blocked.
  print(response.prompt_feedback)
  # Also check the finish reason to see if the response was blocked.
  print(response.candidates[0].finish_reason)
  # If the finish reason was SAFETY, the safety ratings have more details.
  print(response.candidates[0].safety_ratings)

Các bước tiếp theo

  • Hãy xem Tài liệu tham khảo API để tìm hiểu thêm về API đầy đủ.
  • Xem hướng dẫn về an toàn để có cái nhìn chung về các điểm cần cân nhắc về tính an toàn khi phát triển bằng các LLM.
  • Tìm hiểu thêm về cách đánh giá xác suất so với mức độ nghiêm trọng từ nhóm Jigsaw
  • Tìm hiểu thêm về các sản phẩm góp phần cho các giải pháp an toàn như API Perspective.
  • Bạn có thể sử dụng những chế độ cài đặt an toàn này để tạo một thuật toán phân loại tính độc hại. Hãy xem ví dụ phân loại để bắt đầu.