Đánh giá rủi ro và thiết lập các chính sách an toàn

Chính sách an toàn về nội dung quy định những loại nội dung gây hại không được phép xuất hiện trên nền tảng trực tuyến. Bạn có thể đã quen thuộc với các chính sách nội dung của các nền tảng như YouTube hoặc Google Play. Các chính sách về nội dung cho ứng dụng AI tạo sinh cũng tương tự như vậy: Chính sách này xác định loại nội dung mà ứng dụng của bạn không được tạo, đồng thời hướng dẫn cách điều chỉnh mô hình và thêm các biện pháp bảo vệ thích hợp.

Chính sách của bạn phải phản ánh trường hợp sử dụng của ứng dụng. Ví dụ: Một sản phẩm AI tạo sinh nhằm đưa ra ý tưởng về các hoạt động dành cho gia đình dựa trên các đề xuất của cộng đồng có thể có chính sách nghiêm cấm việc tạo nội dung về bản chất bạo lực vì có thể gây hại cho người dùng. Ngược lại, một ứng dụng tóm tắt các ý tưởng về truyện khoa học viễn tưởng do người dùng đề xuất có thể muốn tạo điều kiện cho hành vi bạo lực, vì đó là chủ đề của nhiều câu chuyện thuộc thể loại này.

Chính sách an toàn của bạn phải nghiêm cấm việc tạo nội dung có hại cho người dùng hoặc bất hợp pháp, đồng thời phải chỉ định rõ những loại nội dung đã tạo đáp ứng tiêu chuẩn đó đối với ứng dụng. Bạn cũng nên cân nhắc việc đưa vào các trường hợp ngoại lệ đối với nội dung mang tính giáo dục, tư liệu, khoa học hoặc nghệ thuật có thể bị coi là gây hại.

Việc xác định các chính sách rõ ràng với mức độ chi tiết cao, bao gồm cả các trường hợp ngoại lệ về chính sách kèm theo ví dụ là điều cơ bản để xây dựng một sản phẩm có trách nhiệm. Chính sách của bạn được sử dụng trong mỗi bước phát triển mô hình. Đối với việc làm sạch hoặc gắn nhãn dữ liệu, việc không chính xác có thể dẫn đến việc dữ liệu bị gắn nhãn sai, xoá quá mức hoặc xoá dữ liệu quá mức sẽ ảnh hưởng đến khả năng phản hồi về tính an toàn của mô hình. Đối với mục đích đánh giá, các chính sách không rõ ràng sẽ dẫn đến sự khác biệt giữa các mức giá thầu cao, khiến việc biết liệu mô hình của bạn có đáp ứng các tiêu chuẩn an toàn hay không.

Chính sách giả định (chỉ để minh hoạ)

Sau đây là một số ví dụ về các chính sách mà bạn có thể cân nhắc sử dụng cho ứng dụng của mình, miễn là các chính sách đó phù hợp với trường hợp sử dụng của bạn.

Danh mục chính sách Chính sách
Thông tin nhận dạng cá nhân nhạy cảm (SPII) Ứng dụng sẽ không nhắc thông tin nhạy cảm và thông tin nhận dạng cá nhân (ví dụ: email, số thẻ tín dụng hoặc số an sinh xã hội của một cá nhân).
Lời nói hận thù Ứng dụng này sẽ không tạo nội dung tiêu cực hoặc gây hại nhắm đến danh tính và/hoặc các thuộc tính được bảo vệ (ví dụ: lời nói phân biệt chủng tộc, cổ xuý hành vi phân biệt đối xử, lời kêu gọi bạo lực nhắm đến nhóm người được bảo vệ).
Hành vi quấy rối Ứng dụng sẽ không tạo nội dung độc hại, hăm doạ, bắt nạt hoặc lăng mạ nhắm đến một cá nhân khác (ví dụ: đe doạ thể chất, phủ nhận các sự kiện bi thảm, miệt thị nạn nhân bạo lực).
Nội dung nguy hiểm Ứng dụng này sẽ không tạo hướng dẫn hoặc lời khuyên về cách tự gây thương tích cho bản thân và/hoặc người khác (ví dụ: sử dụng hoặc chế tạo súng cầm tay và thiết bị gây nổ, nội dung quảng bá chủ nghĩa khủng bố, hướng dẫn cách tự tử).
Khiêu dâm Ứng dụng sẽ không tạo nội dung tham chiếu đến hoạt động tình dục hoặc nội dung dâm dục khác (ví dụ: nội dung mô tả phản cảm về tình dục, nội dung nhằm mục đích gây kích thích).
Tạo điều kiện truy cập vào hàng hoá và dịch vụ gây hại Ứng dụng này sẽ không tạo ra nội dung quảng bá hoặc cho phép truy cập vào hàng hoá, dịch vụ và hoạt động có khả năng gây hại (ví dụ: tạo điều kiện tiếp cận quảng cáo cờ bạc, dược phẩm, pháo hoa, dịch vụ tình dục).
Nội dung độc hại Ứng dụng sẽ không tạo hướng dẫn để thực hiện các hoạt động bất hợp pháp hoặc lừa đảo (ví dụ: tạo các thủ đoạn lừa đảo, thư rác hoặc nội dung nhằm mục đích gạ gẫm hàng loạt hoặc các phương pháp bẻ khoá).

Tài nguyên dành cho nhà phát triển

Ví dụ về chính sách dựa trên AI tạo sinh: