Tổng quan
Hướng dẫn này mô tả các chế độ cài đặt an toàn có thể điều chỉnh của API PaLM hiện có cho dịch vụ văn bản. Trong giai đoạn tạo mẫu, bạn có thể điều chỉnh các chế độ cài đặt an toàn trên 6 phương diện để nhanh chóng đánh giá xem ứng dụng có cần cấu hình hạn chế nhiều hơn hay ít hơn hay không. Theo mặc định, các chế độ cài đặt an toàn sẽ chặn nội dung có xác suất trung bình và/hoặc cao là nội dung không an toàn trên cả 6 phương diện. Độ an toàn cơ sở này được thiết kế để hoạt động cho hầu hết các trường hợp sử dụng. Vì vậy, bạn chỉ nên điều chỉnh chế độ cài đặt an toàn nếu đó là yêu cầu nhất quán đối với ứng dụng.
Bộ lọc an toàn
Ngoài các bộ lọc an toàn có thể điều chỉnh, API PaLM còn tích hợp sẵn các biện pháp bảo vệ trước các mối nguy hại cốt lõi, chẳng hạn như nội dung gây nguy hiểm cho sự an toàn của trẻ em. Những loại hành vi gây hại này luôn bị chặn và không thể điều chỉnh.
Bộ lọc an toàn có thể điều chỉnh bao gồm các danh mục sau:
- Nội dung xúc phạm
- Độc hại
- Có tính khiêu dâm
- Bạo lực
- Y tế
- Nguy hiểm
Các chế độ cài đặt này cho phép nhà phát triển xác định chế độ cài đặt phù hợp với trường hợp sử dụng của mình. Ví dụ: nếu đang xây dựng một hội thoại trong trò chơi điện tử, bạn có thể cho phép thêm nội dung được đánh giá là bạo lực hoặc nguy hiểm do bản chất của trò chơi. Dưới đây là một vài trường hợp sử dụng mẫu khác có thể cần linh hoạt hơn trong các chế độ cài đặt an toàn này:
Trường hợp sử dụng | Danh mục |
---|---|
Ứng dụng đào tạo chống quấy rối | Xúc phạm, tình dục, độc hại |
Đối tượng hỗ trợ nghiên cứu y khoa | Y tế |
Người viết kịch bản | Bạo lực, Tình dục, Y tế, Nguy hiểm |
Thuật toán phân loại độc hại | Độc hại, xúc phạm |
Xác suất so với mức độ nghiêm trọng
API PaLM chặn nội dung dựa trên xác suất nội dung không an toàn chứ không phải mức độ nghiêm trọng. Bạn cần cân nhắc điều này vì một số nội dung có khả năng không an toàn ở mức thấp, mặc dù mức độ nghiêm trọng của mối nguy hại vẫn có thể cao. Ví dụ: so sánh các câu:
- Rô-bốt đã đấm tôi.
- Rô-bốt đã chém tôi.
Câu 1 có thể dẫn đến xác suất không an toàn cao hơn, nhưng bạn có thể coi câu 2 có mức độ nghiêm trọng cao hơn khi xét đến hành vi bạo lực.
Do đó, điều quan trọng là mỗi nhà phát triển phải kiểm thử kỹ và cân nhắc mức độ chặn thích hợp cần thiết để hỗ trợ các trường hợp sử dụng chính, đồng thời giảm thiểu thiệt hại cho người dùng cuối.
Chế độ cài đặt an toàn
Chế độ cài đặt an toàn nằm trong yêu cầu bạn gửi đến dịch vụ tin nhắn. Bạn có thể điều chỉnh ngưỡng này cho mỗi yêu cầu được gửi đến API. Bảng sau đây liệt kê các danh mục mà bạn có thể thiết lập và mô tả loại thiệt hại mà mỗi danh mục bao gồm.
Danh mục | Thông tin mô tả |
---|---|
Nội dung xúc phạm | Các bình luận tiêu cực hoặc gây hại nhắm đến danh tính và/hoặc các thuộc tính được bảo vệ. |
Độc hại | Nội dung thô tục, khiếm nhã hoặc thô tục. |
Có tính khiêu dâm | Chứa chi tiết đề cập đến hoạt động tình dục hoặc nội dung đồi truỵ khác. |
Bạo lực | Mô tả các tình huống mô tả hành vi bạo lực đối với một cá nhân hoặc nhóm người, hoặc mô tả chung chung về sự đẫm máu. |
Nguy hiểm | Cổ xuý, tạo điều kiện hoặc khuyến khích việc thực hiện hành động gây hại. |
Y tế | Nội dung có liên quan đến chủ đề y tế |
Bạn cũng có thể xem các định nghĩa này trong tài liệu tham khảo API.
Bảng sau đây mô tả các chế độ cài đặt chặn mà bạn có thể điều chỉnh cho từng danh mục. Ví dụ: nếu bạn đặt chế độ cài đặt chặn thành Chặn một số cho danh mục Derogatory, thì mọi thứ có khả năng cao là nội dung vi phạm sẽ bị chặn. Tuy nhiên, chúng tôi cho phép những thao tác có xác suất thấp hơn.
Nếu bạn không đặt chính sách này, chế độ cài đặt chặn mặc định sẽ là Chặn một số ứng dụng hoặc Chặn hầu hết tuỳ thuộc vào danh mục chính sách.
Ngưỡng (Google AI Studio) | Ngưỡng (API) | Nội dung mô tả |
---|---|---|
Không chặn | BLOCK_NONE | Luôn hiển thị bất kể khả năng nội dung không an toàn |
Chặn một vài | BLOCK_ONLY_HIGH | Chặn khi có nhiều khả năng xảy ra nội dung không an toàn |
Chặn một số thành phần (Mặc định là tình dục, bạo lực, nguy hiểm và y tế) | BLOCK_MEDIUM_AND_ABOVE | Chặn khi nội dung không an toàn có khả năng xuất hiện ở mức trung bình hoặc cao |
Chặn hầu hết (Mặc định là mang tính xúc phạm và độc hại) | BLOCK_LOW_AND_ABOVE | Chặn khi nội dung không an toàn có khả năng xảy ra ở mức thấp, trung bình hoặc cao |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Chưa chỉ định ngưỡng, hãy chặn bằng cách sử dụng ngưỡng mặc định |
Bạn có thể đặt các chế độ cài đặt này cho mỗi yêu cầu bạn gửi đến dịch vụ nhắn tin. Hãy xem tài liệu tham khảo về API HarmBlockThreshold
để biết thông tin chi tiết.
Phản hồi về an toàn
Nếu nội dung bị chặn, phản hồi từ API sẽ chứa lý do nội dung bị chặn trong trường ContentFilter.reason
. Nếu lý do liên quan đến an toàn, thì phản hồi cũng chứa trường SafetyFeedback
, bao gồm các chế độ cài đặt an toàn dùng cho yêu cầu đó, cũng như điểm xếp hạng an toàn. Xếp hạng an toàn bao gồm danh mục và xác suất phân loại thiệt hại. Nội dung đã bị chặn sẽ không được trả lại.
Xác suất được trả về tương ứng với các mức độ tin cậy của khối như minh hoạ trong bảng sau:
Xác suất | Nội dung mô tả |
---|---|
KHÔNG THỂ HIỆN TẠI | Nội dung có xác suất không an toàn là không đáng kể |
THẤP | Nội dung có ít khả năng trở nên không an toàn |
VỪA PHẢI | Nội dung có xác suất không an toàn ở mức trung bình |
CAO | Nội dung có nhiều khả năng không an toàn |
Ví dụ: nếu nội dung bị chặn do danh mục độc hại có xác suất cao, thì điểm xếp hạng an toàn được trả về sẽ có danh mục bằng TOXICITY
và xác suất gây hại được đặt thành HIGH
.
Các chế độ cài đặt an toàn trong Google AI Studio
Bạn cũng có thể thiết lập các chế độ cài đặt này trong Google AI Studio. Trong phần Run settings (Chạy chế độ cài đặt), hãy nhấp vào Edit safety settings (Chỉnh sửa chế độ cài đặt an toàn):
Và sử dụng các nút điều chỉnh để điều chỉnh từng chế độ cài đặt:
Thông báo
No Content (Không có nội dung) sẽ xuất hiện nếu nội dung bị chặn. Để xem thêm thông tin chi tiết, hãy giữ con trỏ trên tuỳ chọn No Content (Không có nội dung) rồi nhấp vào Safety (An toàn).Ví dụ về mã
Phần này cho biết cách sử dụng các chế độ cài đặt an toàn trong mã bằng thư viện ứng dụng python.
Ví dụ về yêu cầu
Sau đây là đoạn mã python cho thấy cách đặt các chế độ cài đặt an toàn trong lệnh gọi GenerateText
. Thao tác này sẽ thiết lập các danh mục gây hại Derogatory
và Violence
thành BLOCK_LOW_AND_ABOVE
, giúp chặn mọi nội dung có xác suất bạo lực hoặc xúc phạm thấp hoặc cao.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Ví dụ về phản hồi
Dưới đây là một đoạn mã để phân tích cú pháp phản hồi về an toàn từ phản hồi. Lưu ý rằng ý kiến phản hồi về an toàn sẽ trống trừ phi lý do chặn là một trong các phương diện an toàn.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Các bước tiếp theo
- Xem Tài liệu tham khảo API để tìm hiểu thêm về API đầy đủ.
- Xem hướng dẫn về tính an toàn để biết thông tin chung về các điểm cần cân nhắc về tính an toàn khi phát triển bằng các LLM.
- Tìm hiểu thêm về cách đánh giá xác suất so với mức độ nghiêm trọng từ nhóm Jigsaw
- Tìm hiểu thêm về các sản phẩm góp phần vào các giải pháp an toàn như Perspective API.
- Bạn có thể sử dụng các chế độ cài đặt an toàn này để tạo thuật toán phân loại độc tính. Hãy xem ví dụ về cách phân loại để bắt đầu.