Cài đặt an toàn

Tổng quan

Hướng dẫn này mô tả các chế độ cài đặt an toàn có thể điều chỉnh của API PaLM hiện có cho dịch vụ văn bản. Trong giai đoạn tạo mẫu, bạn có thể điều chỉnh các chế độ cài đặt an toàn trên 6 phương diện để nhanh chóng đánh giá xem ứng dụng có cần cấu hình hạn chế nhiều hơn hay ít hơn hay không. Theo mặc định, các chế độ cài đặt an toàn sẽ chặn nội dung có xác suất trung bình và/hoặc cao là nội dung không an toàn trên cả 6 phương diện. Độ an toàn cơ sở này được thiết kế để hoạt động cho hầu hết các trường hợp sử dụng. Vì vậy, bạn chỉ nên điều chỉnh chế độ cài đặt an toàn nếu đó là yêu cầu nhất quán đối với ứng dụng.

Bộ lọc an toàn

Ngoài các bộ lọc an toàn có thể điều chỉnh, API PaLM còn tích hợp sẵn các biện pháp bảo vệ trước các mối nguy hại cốt lõi, chẳng hạn như nội dung gây nguy hiểm cho sự an toàn của trẻ em. Những loại hành vi gây hại này luôn bị chặn và không thể điều chỉnh.

Bộ lọc an toàn có thể điều chỉnh bao gồm các danh mục sau:

  • Nội dung xúc phạm
  • Độc hại
  • Có tính khiêu dâm
  • Bạo lực
  • Y tế
  • Nguy hiểm

Các chế độ cài đặt này cho phép nhà phát triển xác định chế độ cài đặt phù hợp với trường hợp sử dụng của mình. Ví dụ: nếu đang xây dựng một hội thoại trong trò chơi điện tử, bạn có thể cho phép thêm nội dung được đánh giá là bạo lực hoặc nguy hiểm do bản chất của trò chơi. Dưới đây là một vài trường hợp sử dụng mẫu khác có thể cần linh hoạt hơn trong các chế độ cài đặt an toàn này:

Trường hợp sử dụng Danh mục
Ứng dụng đào tạo chống quấy rối Xúc phạm, tình dục, độc hại
Đối tượng hỗ trợ nghiên cứu y khoa Y tế
Người viết kịch bản Bạo lực, Tình dục, Y tế, Nguy hiểm
Thuật toán phân loại độc hại Độc hại, xúc phạm

Xác suất so với mức độ nghiêm trọng

API PaLM chặn nội dung dựa trên xác suất nội dung không an toàn chứ không phải mức độ nghiêm trọng. Bạn cần cân nhắc điều này vì một số nội dung có khả năng không an toàn ở mức thấp, mặc dù mức độ nghiêm trọng của mối nguy hại vẫn có thể cao. Ví dụ: so sánh các câu:

  1. Rô-bốt đã đấm tôi.
  2. Rô-bốt đã chém tôi.

Câu 1 có thể dẫn đến xác suất không an toàn cao hơn, nhưng bạn có thể coi câu 2 có mức độ nghiêm trọng cao hơn khi xét đến hành vi bạo lực.

Do đó, điều quan trọng là mỗi nhà phát triển phải kiểm thử kỹ và cân nhắc mức độ chặn thích hợp cần thiết để hỗ trợ các trường hợp sử dụng chính, đồng thời giảm thiểu thiệt hại cho người dùng cuối.

Chế độ cài đặt an toàn

Chế độ cài đặt an toàn nằm trong yêu cầu bạn gửi đến dịch vụ tin nhắn. Bạn có thể điều chỉnh ngưỡng này cho mỗi yêu cầu được gửi đến API. Bảng sau đây liệt kê các danh mục mà bạn có thể thiết lập và mô tả loại thiệt hại mà mỗi danh mục bao gồm.

Danh mục Thông tin mô tả
Nội dung xúc phạm Các bình luận tiêu cực hoặc gây hại nhắm đến danh tính và/hoặc các thuộc tính được bảo vệ.
Độc hại Nội dung thô tục, khiếm nhã hoặc thô tục.
Có tính khiêu dâm Chứa chi tiết đề cập đến hoạt động tình dục hoặc nội dung đồi truỵ khác.
Bạo lực Mô tả các tình huống mô tả hành vi bạo lực đối với một cá nhân hoặc nhóm người, hoặc mô tả chung chung về sự đẫm máu.
Nguy hiểm Cổ xuý, tạo điều kiện hoặc khuyến khích việc thực hiện hành động gây hại.
Y tế Nội dung có liên quan đến chủ đề y tế

Bạn cũng có thể xem các định nghĩa này trong tài liệu tham khảo API.

Bảng sau đây mô tả các chế độ cài đặt chặn mà bạn có thể điều chỉnh cho từng danh mục. Ví dụ: nếu bạn đặt chế độ cài đặt chặn thành Chặn một số cho danh mục Derogatory, thì mọi thứ có khả năng cao là nội dung vi phạm sẽ bị chặn. Tuy nhiên, chúng tôi cho phép những thao tác có xác suất thấp hơn.

Nếu bạn không đặt chính sách này, chế độ cài đặt chặn mặc định sẽ là Chặn một số ứng dụng hoặc Chặn hầu hết tuỳ thuộc vào danh mục chính sách.

Ngưỡng (Google AI Studio) Ngưỡng (API) Nội dung mô tả
Không chặn BLOCK_NONE Luôn hiển thị bất kể khả năng nội dung không an toàn
Chặn một vài BLOCK_ONLY_HIGH Chặn khi có nhiều khả năng xảy ra nội dung không an toàn
Chặn một số thành phần (Mặc định là tình dục, bạo lực, nguy hiểm và y tế) BLOCK_MEDIUM_AND_ABOVE Chặn khi nội dung không an toàn có khả năng xuất hiện ở mức trung bình hoặc cao
Chặn hầu hết (Mặc định là mang tính xúc phạm và độc hại) BLOCK_LOW_AND_ABOVE Chặn khi nội dung không an toàn có khả năng xảy ra ở mức thấp, trung bình hoặc cao
HARM_BLOCK_THRESHOLD_UNSPECIFIED Chưa chỉ định ngưỡng, hãy chặn bằng cách sử dụng ngưỡng mặc định

Bạn có thể đặt các chế độ cài đặt này cho mỗi yêu cầu bạn gửi đến dịch vụ nhắn tin. Hãy xem tài liệu tham khảo về API HarmBlockThreshold để biết thông tin chi tiết.

Phản hồi về an toàn

Nếu nội dung bị chặn, phản hồi từ API sẽ chứa lý do nội dung bị chặn trong trường ContentFilter.reason. Nếu lý do liên quan đến an toàn, thì phản hồi cũng chứa trường SafetyFeedback, bao gồm các chế độ cài đặt an toàn dùng cho yêu cầu đó, cũng như điểm xếp hạng an toàn. Xếp hạng an toàn bao gồm danh mục và xác suất phân loại thiệt hại. Nội dung đã bị chặn sẽ không được trả lại.

Xác suất được trả về tương ứng với các mức độ tin cậy của khối như minh hoạ trong bảng sau:

Xác suất Nội dung mô tả
KHÔNG THỂ HIỆN TẠI Nội dung có xác suất không an toàn là không đáng kể
THẤP Nội dung có ít khả năng trở nên không an toàn
VỪA PHẢI Nội dung có xác suất không an toàn ở mức trung bình
CAO Nội dung có nhiều khả năng không an toàn

Ví dụ: nếu nội dung bị chặn do danh mục độc hại có xác suất cao, thì điểm xếp hạng an toàn được trả về sẽ có danh mục bằng TOXICITY và xác suất gây hại được đặt thành HIGH.

Các chế độ cài đặt an toàn trong Google AI Studio

Bạn cũng có thể thiết lập các chế độ cài đặt này trong Google AI Studio. Trong phần Run settings (Chạy chế độ cài đặt), hãy nhấp vào Edit safety settings (Chỉnh sửa chế độ cài đặt an toàn):

Nút cài đặt an toàn

Và sử dụng các nút điều chỉnh để điều chỉnh từng chế độ cài đặt:

Nút cài đặt an toàn

Thông báo No Content (Không có nội dung) sẽ xuất hiện nếu nội dung bị chặn. Để xem thêm thông tin chi tiết, hãy giữ con trỏ trên tuỳ chọn No Content (Không có nội dung) rồi nhấp vào Safety (An toàn).

Ví dụ về mã

Phần này cho biết cách sử dụng các chế độ cài đặt an toàn trong mã bằng thư viện ứng dụng python.

Ví dụ về yêu cầu

Sau đây là đoạn mã python cho thấy cách đặt các chế độ cài đặt an toàn trong lệnh gọi GenerateText. Thao tác này sẽ thiết lập các danh mục gây hại DerogatoryViolence thành BLOCK_LOW_AND_ABOVE, giúp chặn mọi nội dung có xác suất bạo lực hoặc xúc phạm thấp hoặc cao.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Ví dụ về phản hồi

Dưới đây là một đoạn mã để phân tích cú pháp phản hồi về an toàn từ phản hồi. Lưu ý rằng ý kiến phản hồi về an toàn sẽ trống trừ phi lý do chặn là một trong các phương diện an toàn.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Các bước tiếp theo

  • Xem Tài liệu tham khảo API để tìm hiểu thêm về API đầy đủ.
  • Xem hướng dẫn về tính an toàn để biết thông tin chung về các điểm cần cân nhắc về tính an toàn khi phát triển bằng các LLM.
  • Tìm hiểu thêm về cách đánh giá xác suất so với mức độ nghiêm trọng từ nhóm Jigsaw
  • Tìm hiểu thêm về các sản phẩm góp phần vào các giải pháp an toàn như Perspective API.
  • Bạn có thể sử dụng các chế độ cài đặt an toàn này để tạo thuật toán phân loại độc tính. Hãy xem ví dụ về cách phân loại để bắt đầu.