Tạo các biện pháp bảo vệ đầu vào và đầu ra

Các ứng dụng AI tạo sinh thường dựa vào tính năng lọc dữ liệu đầu vào và đầu ra, đôi khi được gọi là biện pháp bảo vệ, để giúp đảm bảo mô hình có trách nhiệm hành vi. Kỹ thuật lọc đầu vào và đầu ra kiểm tra dữ liệu đi vào hoặc khi rút ra khỏi mô hình này, tuân thủ các chính sách mà bạn xác định cho ứng dụng của mình.

Các biện pháp bảo vệ có sẵn

Ngay cả khi đã được điều chỉnh trước để đảm bảo an toàn và một mẫu câu lệnh được thiết kế hợp lý, thì mô hình của bạn vẫn có thể xuất ra nội dung gây tổn hại không mong muốn. Để cải thiện hiệu quả hơn nữa, thuật toán phân loại nội dung có thể thêm một lớp bảo vệ thiết bị. Bạn có thể áp dụng thuật toán phân loại nội dung cho cả dữ liệu đầu vào và đầu ra.

Thuật toán phân loại đầu vào thường dùng để lọc nội dung không nhằm được sử dụng trong ứng dụng và có thể khiến mô hình của bạn vi phạm chính sách an toàn của Google. Bộ lọc dữ liệu đầu vào thường nhắm đến các cuộc tấn công đối nghịch nhằm cố gắng né tránh chính sách nội dung của mình. Thuật toán phân loại đầu ra có thể lọc thêm mô hình đầu ra, phát hiện các thế hệ ngoài ý muốn có thể vi phạm các chính sách an toàn của bạn. Bạn nên có các thuật toán phân loại bao gồm tất cả các chính sách nội dung của mình.

Google cung cấp các thuật toán phân loại dựa trên API nhằm đảm bảo an toàn nội dung mà có thể dùng để đầu vào và đầu ra của hệ thống bộ lọc:

  • Perspective API là một API miễn phí sử dụng máy các mô hình học tập để cho điểm mức độ tác động trực quan mà một nhận xét có thể có đối với cuộc trò chuyện. Mô hình này cung cấp các điểm số nắm bắt xác suất nhận xét độc hại, đe doạ, xúc phạm hoặc lạc đề.
  • Dịch vụ kiểm duyệt văn bản là một API của Google Cloud người dùng có thể sử dụng dưới một hạn mức sử dụng nhất định và sử dụng công nghệ học máy để phân tích một tài liệu dựa trên một danh sách các dữ liệu an toàn bao gồm nhiều danh mục và chủ đề có khả năng gây hại có thể được coi là nhạy cảm.

Bạn cần phải đánh giá xem các thuật toán phân loại được tạo sẵn có đáp ứng chính sách của bạn hay không mục tiêu và đánh giá định tính các trường hợp thất bại. Bạn cũng cần lưu ý Xin lưu ý rằng việc lọc quá mức cũng có thể gây tổn hại không mong muốn cũng như giảm sự hữu ích của ứng dụng, điều đó có nghĩa là bạn cũng cần xem xét có thể xảy ra trường hợp lọc quá mức. Để biết thêm chi tiết về việc đánh giá hãy xem phần Đánh giá mô hình và hệ thống về mức độ an toàn.

Tạo thuật toán phân loại độ an toàn tuỳ chỉnh

Có một số lý do khiến biện pháp bảo vệ tạo sẵn có thể không phù hợp trường hợp sử dụng của bạn, chẳng hạn như có một chính sách không được hỗ trợ hoặc muốn tinh chỉnh thêm biện pháp bảo vệ bằng dữ liệu mà bạn quan sát thấy ảnh hưởng đến hệ thống của mình. Ngang bằng trong trường hợp này, thuật toán phân loại linh hoạt sẽ cung cấp khung linh hoạt để tạo các biện pháp bảo vệ tuỳ chỉnh bằng cách điều chỉnh các mô hình, chẳng hạn như Gemma để đáp ứng nhu cầu của bạn. Chúng cũng cho phép bạn kiểm soát hoàn toàn địa điểm và cách chúng được triển khai.

Hướng dẫn về công cụ phân loại Gemma Agile

Bắt đầu lớp học lập trình Khởi động Google Colab

codelab về thuật toán phân loại linh hoạt và hướng dẫn sử dụng LoRA để tinh chỉnh Gemma đóng vai trò như một thuật toán phân loại kiểm duyệt nội dung bằng KerasNLP thư viện của bạn. Chỉ sử dụng 200 ví dụ từ tập dữ liệu ETHOS, kết quả này là thuật toán phân loại đạt được điểm F1 là 0,80 và điểm RoC-AUC 0,78, tương đương với công nghệ hiện đại kết quả bảng xếp hạng. Khi được đào tạo dựa trên 800 ví dụ, giống như các thuật toán phân loại khác trên bảng xếp hạng, thuật toán phân loại linh hoạt dựa trên Gemma đạt điểm F1 là 83,74 và điểm ROC-AUC là 88,17. Bạn có thể điều chỉnh các hướng dẫn để tinh chỉnh thêm thuật toán phân loại này hoặc tự tạo thuật toán phân loại các biện pháp bảo vệ thuật toán phân loại an toàn tuỳ chỉnh.

Các phương pháp hay nhất để thiết lập các biện pháp bảo vệ

Bạn nên sử dụng thuật toán phân loại an toàn làm biện pháp bảo vệ. Tuy nhiên, dẫn đến việc mô hình tạo sinh không tạo ra gì cho người dùng nếu nội dung bị chặn. Các ứng dụng cần được thiết kế để xử lý việc này trường hợp. Các bot trò chuyện phổ biến nhất xử lý việc này bằng cách đưa ra câu trả lời soạn trước ("Tôi là rất tiếc, tôi là người mẫu ngôn ngữ nên không thể giúp bạn thực hiện yêu cầu này").

Cân bằng giữa tính hữu ích và vô hại: Khi sử dụng bộ phân loại an toàn của bạn. Bạn cần hiểu rằng họ sẽ mắc lỗi, bao gồm cả kết quả dương tính giả (ví dụ: tuyên bố đầu ra là không an toàn khi kết quả đó không an toàn not) và âm tính giả (không gắn nhãn một đầu ra là không an toàn trong trường hợp đó là không an toàn). Theo để đánh giá thuật toán phân loại bằng các chỉ số như F1, Độ chính xác, Thu hồi và AUC-ROC, bạn có thể xác định cách bạn muốn đánh đổi dương tính giả với dương tính giả lỗi tiêu cực. Bằng cách thay đổi ngưỡng của thuật toán phân loại, bạn giúp tìm ra mức cân bằng lý tưởng giúp tránh tình trạng lọc quá mức dữ liệu đầu ra trong khi vẫn cung cấp an toàn phù hợp.

Kiểm tra các thuật toán phân loại để phát hiện các sai lệch ngoài ý muốn: Các thuật toán phân loại sự an toàn, chẳng hạn như bất kỳ thuật toán nào một mô hình học máy khác, có thể gây ra những thiên kiến ngoài ý muốn, chẳng hạn như văn hoá xã hội định kiến. Ứng dụng cần được đánh giá một cách thích hợp về khả năng các hành vi có vấn đề. Cụ thể, thuật toán phân loại độ an toàn nội dung có thể kích hoạt quá mức trên nội dung liên quan đến danh tính thường xuyên hơn mục tiêu của ngôn ngữ lăng mạ trên mạng. Ví dụ: khi Perspective API ra mắt lần đầu tiên, nên mô hình này trả về điểm độc hại cao hơn trong phần bình luận tham chiếu đến một số nhóm nhận dạng nhất định (blog). Việc kích hoạt quá mức này có thể xảy ra vì bình luận đề cập đến điều khoản nhận dạng để các nhóm người dùng thường xuyên được nhắm mục tiêu (ví dụ: các từ như "Người da đen", "người Hồi giáo", "người nữ quyền", "phụ nữ", "đồng tính nam", v.v.) thường độc hại hơn. Khi tập dữ liệu dùng để Các thuật toán phân loại của chương trình huấn luyện có sự không cân bằng đáng kể đối với những nhận xét chứa một số các từ đó, thuật toán phân loại có thể khái quát hoá quá mức và xem xét mọi bình luận có chứa những từ đó có khả năng không an toàn. Đọc cách thức nhóm Jigsaw giảm thiểu thiên kiến ngoài ý muốn này.

Tài nguyên dành cho nhà phát triển