Tạo các biện pháp bảo vệ đầu vào và đầu ra

Các ứng dụng AI tạo sinh thường dựa vào tính năng lọc dữ liệu đầu vào và đầu ra, đôi khi được gọi là biện pháp bảo vệ, để giúp đảm bảo mô hình có trách nhiệm hành vi. Kỹ thuật lọc đầu vào và đầu ra kiểm tra dữ liệu đi vào hoặc khi rút ra khỏi mô hình này, tuân thủ các chính sách mà bạn xác định cho ứng dụng của mình. Thuật toán phân loại đầu vào thường được dùng để lọc nội dung không nhằm mục đích sử dụng trong ứng dụng của bạn và có thể khiến mô hình của bạn vi phạm chính sách an toàn. Bộ lọc dữ liệu đầu vào thường nhắm mục tiêu đối kháng nhằm tìm cách tránh né chính sách nội dung của bạn. Thông tin đầu ra thuật toán phân loại kết hợp với bộ lọc đào tạo an toàn thêm đầu ra mô hình, phát hiện đầu ra được tạo có thể vi phạm chính sách an toàn của bạn. Bạn nên có các thuật toán phân loại bao gồm tất cả các chính sách nội dung của mình.

Các biện pháp bảo vệ có sẵn

Ngay cả khi đã được điều chỉnh trước để đảm bảo an toàn và một mẫu câu lệnh được thiết kế hợp lý, thì mô hình của bạn vẫn có thể xuất ra nội dung gây tổn hại không mong muốn. Các thuật toán phân loại nội dung tạo sẵn có thể bổ sung một lớp bảo vệ cho giúp cải thiện hơn nữa khả năng này đối với một số loại vi phạm chính sách nhất định.

ShieldGemma

ShieldGemma là một tập hợp các tính năng tạo sẵn, được tinh chỉnh theo hướng dẫn và mở đánh giá các mô hình phân loại nội dung, được xây dựng dựa trên Gemma 2, có thể xác định xem nội dung do người dùng cung cấp, nội dung do mô hình tạo hoặc nội dung hỗn hợp vi phạm chính sách an toàn nội dung của Google. ShieldGemma được huấn luyện để xác định 4 mối nguy hại (tình dục) nội dung, nội dung nguy hiểm, quấy rối và lời nói hận thù) và bao gồm 3 các biến thể thuộc loại kích thước (tham số 2B, 9B và 27B) cho phép bạn cân bằng giữa tốc độ, hiệu suất và khả năng khái quát hoá để phù hợp với nhu cầu của bạn trên bất kỳ triển khai. Xem thẻ mô hình để biết thêm về sự khác biệt giữa các biến thể này.

Bảo vệ các mô hình của bạn bằng ShieldGemma

Khởi động Google Colab (Keras) Khởi động Google Colab (Transformers)

Bạn có thể sử dụng mô hình ShieldGemma trong các khung sau.

Dựa trên API

Google cung cấp các thuật toán phân loại dựa trên API nhằm đảm bảo an toàn nội dung mà có thể dùng để đầu vào và đầu ra của hệ thống bộ lọc:

  • Perspective API là một API miễn phí sử dụng máy các mô hình học tập để cho điểm mức độ tác động trực quan mà một nhận xét có thể có đối với cuộc trò chuyện. Mô hình này cung cấp các điểm số nắm bắt xác suất nhận xét độc hại, đe doạ, xúc phạm hoặc lạc đề.
  • Dịch vụ kiểm duyệt văn bản là một API của Google Cloud người dùng có thể sử dụng dưới một hạn mức sử dụng nhất định và sử dụng công nghệ học máy để phân tích một tài liệu dựa trên một danh sách các dữ liệu an toàn bao gồm nhiều danh mục và chủ đề có khả năng gây hại có thể được coi là nhạy cảm.

Bạn cần phải đánh giá xem các thuật toán phân loại được tạo sẵn có đáp ứng chính sách của bạn hay không mục tiêu và đánh giá định tính các trường hợp thất bại. Bạn cũng cần lưu ý Xin lưu ý rằng việc lọc quá mức cũng có thể gây tổn hại không mong muốn cũng như giảm sự hữu ích của ứng dụng, điều đó có nghĩa là bạn cũng cần xem xét có thể xảy ra trường hợp lọc quá mức. Để biết thêm chi tiết về việc đánh giá hãy xem phần Đánh giá mô hình và hệ thống về mức độ an toàn.

Tạo thuật toán phân loại độ an toàn tuỳ chỉnh

Có một số lý do khiến biện pháp bảo vệ tạo sẵn có thể không phù hợp trường hợp sử dụng của bạn, chẳng hạn như có một chính sách không được hỗ trợ hoặc muốn tinh chỉnh thêm biện pháp bảo vệ bằng dữ liệu mà bạn quan sát thấy ảnh hưởng đến hệ thống của mình. Ngang bằng trong trường hợp này, thuật toán phân loại linh hoạt sẽ cung cấp khung linh hoạt để tạo các biện pháp bảo vệ tuỳ chỉnh bằng cách điều chỉnh các mô hình, chẳng hạn như Gemma để đáp ứng nhu cầu của bạn. Chúng cũng cho phép bạn kiểm soát hoàn toàn địa điểm và cách chúng được triển khai.

Hướng dẫn về công cụ phân loại Gemma Agile

Bắt đầu lớp học lập trình Khởi động Google Colab

codelab về thuật toán phân loại linh hoạt và hướng dẫn sử dụng LoRA để tinh chỉnh Gemma đóng vai trò như một thuật toán phân loại kiểm duyệt nội dung bằng KerasNLP thư viện của bạn. Chỉ sử dụng 200 ví dụ từ tập dữ liệu ETHOS, kết quả này thuật toán phân loại đạt được điểm F1 là 0,80 và điểm RoC-AUC 0,78, tương đương với công nghệ hiện đại kết quả bảng xếp hạng. Khi được đào tạo dựa trên 800 ví dụ, giống như các thuật toán phân loại khác trên bảng xếp hạng, thuật toán phân loại linh hoạt dựa trên Gemma đạt điểm F1 là 83,74 và điểm ROC-AUC là 88,17. Bạn có thể điều chỉnh các hướng dẫn để tinh chỉnh thêm thuật toán phân loại này hoặc tự tạo thuật toán phân loại các biện pháp bảo vệ thuật toán phân loại an toàn tuỳ chỉnh.

Các phương pháp hay nhất để thiết lập các biện pháp bảo vệ

Bạn nên sử dụng thuật toán phân loại an toàn làm biện pháp bảo vệ. Tuy nhiên, dẫn đến việc mô hình tạo sinh không tạo ra gì cho người dùng nếu nội dung bị chặn. Các ứng dụng cần được thiết kế để xử lý việc này trường hợp. Các bot trò chuyện phổ biến nhất xử lý việc này bằng cách đưa ra câu trả lời soạn trước ("Tôi là rất tiếc, tôi là người mẫu ngôn ngữ nên không thể giúp bạn thực hiện yêu cầu này").

Cân bằng giữa tính hữu ích và vô hại: Khi sử dụng bộ phân loại an toàn của bạn. Bạn cần hiểu rằng họ sẽ mắc lỗi, bao gồm cả kết quả dương tính giả (ví dụ: tuyên bố đầu ra là không an toàn khi kết quả đó không an toàn not) và âm tính giả (không gắn nhãn một đầu ra là không an toàn trong trường hợp đó là không an toàn). Theo để đánh giá thuật toán phân loại bằng các chỉ số như F1, Độ chính xác, Thu hồi và AUC-ROC, bạn có thể xác định cách bạn muốn đánh đổi dương tính giả với dương tính giả lỗi tiêu cực. Bằng cách thay đổi ngưỡng của thuật toán phân loại, bạn giúp tìm ra mức cân bằng lý tưởng giúp tránh tình trạng lọc quá mức đầu ra trong khi vẫn cung cấp an toàn phù hợp.

Kiểm tra các thuật toán phân loại để phát hiện các sai lệch ngoài ý muốn: Các thuật toán phân loại sự an toàn, chẳng hạn như bất kỳ thuật toán nào một mô hình học máy khác, có thể gây ra những thiên kiến ngoài ý muốn, chẳng hạn như văn hoá xã hội định kiến. Ứng dụng cần được đánh giá một cách thích hợp về khả năng các hành vi có vấn đề. Cụ thể, thuật toán phân loại độ an toàn nội dung có thể kích hoạt quá mức trên nội dung liên quan đến danh tính thường xuyên hơn mục tiêu của ngôn ngữ lăng mạ trên mạng. Ví dụ: khi Perspective API ra mắt lần đầu tiên, nên mô hình này trả về điểm độc hại cao hơn trong phần bình luận tham chiếu đến một số nhóm nhận dạng nhất định (blog). Việc kích hoạt quá mức này có thể xảy ra vì bình luận đề cập đến điều khoản nhận dạng để các nhóm người dùng thường xuyên được nhắm mục tiêu (ví dụ: các từ như "Người da đen", "người Hồi giáo", "người nữ quyền", "phụ nữ", "đồng tính nam", v.v.) thường độc hại hơn. Khi tập dữ liệu dùng để Các thuật toán phân loại của chương trình huấn luyện có sự không cân bằng đáng kể đối với những nhận xét chứa một số các từ đó, thuật toán phân loại có thể khái quát hoá quá mức và xem xét mọi bình luận có chứa những từ đó có khả năng không an toàn. Đọc cách thức nhóm Jigsaw giảm thiểu thiên kiến ngoài ý muốn này.

Tài nguyên dành cho nhà phát triển