Tạo các biện pháp bảo vệ đầu vào và đầu ra

Các ứng dụng AI tạo sinh thường dựa vào tính năng lọc dữ liệu đầu vào và đầu ra, đôi khi còn gọi là safeguards, để giúp đảm bảo hành vi của mô hình có trách nhiệm. Các kỹ thuật lọc đầu vào và đầu ra kiểm tra dữ liệu đi vào hoặc ra khỏi mô hình.

Các biện pháp bảo vệ và thuật toán phân loại an toàn thông dụng

Ngay cả khi đã điều chỉnh trước để đảm bảo an toàn và mẫu lời nhắc được thiết kế tốt, mô hình của bạn vẫn có thể xuất nội dung dẫn đến thiệt hại không mong muốn. Để cải thiện điều này, thuật toán phân loại nội dung có thể thêm một lớp bảo vệ bổ sung. Bạn có thể áp dụng thuật toán phân loại nội dung cho cả dữ liệu đầu vào và đầu ra.

Thuật toán phân loại dữ liệu đầu vào thường dùng để lọc nội dung không nhằm mục đích sử dụng trong ứng dụng và có thể khiến mô hình của bạn vi phạm chính sách an toàn. Các bộ lọc đầu vào thường nhắm đến các cuộc tấn công đối nghịch cố gắng vượt qua các chính sách nội dung của bạn. Các thuật toán phân loại đầu ra có thể lọc tiếp đầu ra của mô hình, phát hiện các thế hệ ngoài ý muốn có thể vi phạm chính sách về sự an toàn của bạn. Bạn nên có các thuật toán phân loại bao gồm tất cả các chính sách nội dung của mình.

Google đã phát triển các thuật toán phân loại sẵn có để đảm bảo độ an toàn của nội dung có thể dùng để lọc dữ liệu đầu vào và đầu ra:

  • Perspective API là một API miễn phí sử dụng các mô hình học máy để đánh giá tác động dự kiến của một nhận xét đối với một cuộc trò chuyện. Công cụ này cung cấp các điểm số cho biết xác suất xem một bình luận có độc hại, mang tính đe doạ, xúc phạm, lạc đề, v.v. hay không.
  • Dịch vụ kiểm duyệt văn bản là một API Google Cloud có thể sử dụng dưới một giới hạn sử dụng nhất định và sử dụng công nghệ học máy để phân tích tài liệu dựa trên danh sách thuộc tính an toàn, bao gồm nhiều danh mục và chủ đề có khả năng gây hại có thể được coi là nhạy cảm.

Bạn cần đánh giá mức độ hiệu quả của các thuật toán phân loại sẵn có trong việc đáp ứng các mục tiêu của chính sách và đánh giá định tính các trường hợp lỗi. Một điều quan trọng cần lưu ý là việc lọc quá mức cũng có thể dẫn đến thiệt hại ngoài ý muốn cũng như làm giảm tiện ích của ứng dụng. Điều quan trọng là cũng cần phải xem xét các trường hợp có thể xảy ra việc lọc quá mức. Để biết thêm thông tin chi tiết về các phương pháp đánh giá đó, hãy xem phần Đánh giá mô hình và hệ thống về độ an toàn.

Tạo thuật toán phân loại độ an toàn tuỳ chỉnh

Nếu chính sách của bạn không được tạo bằng một API có sẵn hoặc nếu bạn muốn tạo thuật toán phân loại của riêng mình, thì các kỹ thuật điều chỉnh hiệu quả về tham số như điều chỉnh lời nhắcLoRA sẽ tạo ra một khung hiệu quả. Trong các phương thức này, thay vì tinh chỉnh toàn bộ mô hình, bạn có thể sử dụng một lượng dữ liệu hạn chế để huấn luyện một tập hợp nhỏ các tham số quan trọng của mô hình. Việc này cho phép mô hình của bạn học các hành vi mới, chẳng hạn như cách phân loại cho trường hợp sử dụng an toàn mới mà chỉ cần tương đối ít dữ liệu huấn luyện và công suất tính toán. Phương pháp này cho phép bạn phát triển các công cụ đảm bảo an toàn được cá nhân hoá cho người dùng và tác vụ của riêng bạn.

Để minh hoạ cách hoạt động của tính năng này, lớp học lập trình này cho biết đoạn mã cần thiết để thiết lập một "trình phân loại nhanh". Lớp học lập trình này trình bày các bước nhập dữ liệu, định dạng dữ liệu cho LLM, huấn luyện các trọng số LoRA, sau đó đánh giá kết quả của bạn. Nhờ Gemma, bạn có thể xây dựng những trình phân loại mạnh mẽ này chỉ bằng một vài dòng mã. Để biết tổng quan chi tiết hơn, bài viết nghiên cứu của chúng tôi "Hướng tới Trình phân loại văn bản linh hoạt cho mọi người" cho biết cách bạn có thể sử dụng các kỹ thuật này để huấn luyện nhiều nhiệm vụ an toàn nhằm đạt được hiệu suất nghệ thuật chỉ với vài trăm ví dụ huấn luyện.

Trong hướng dẫn ví dụ này, bạn có thể đào tạo một thuật toán phân loại để phát hiện lời nói hận thù bằng tập dữ liệu ETHOS (một tập dữ liệu được cung cấp công khai để phát hiện lời nói hận thù, dựa trên các bình luận trên YouTube và Reddit). Khi được huấn luyện trên mô hình Gemma nhỏ hơn, chỉ trên 200 ví dụ (ít hơn 1⁄4 của tập dữ liệu), mô hình này đạt được điểm F1 là: 0,80 và ROC-AUC là 0,78. Kết quả này so sánh thuận lợi với trạng thái của kết quả hình ảnh nghệ thuật được báo cáo trong bảng xếp hạng bảng xếp hạng này. Khi được huấn luyện dựa trên 800 ví dụ, giống như các thuật toán phân loại khác trong bảng xếp hạng, thuật toán phân loại nhanh nhạy dựa trên Gemma đạt được điểm F1 là 83,74 và điểm RoC-AUC là 88,17. Bạn có thể sử dụng thuật toán phân loại này ngay từ đầu hoặc điều chỉnh bằng hướng dẫn Trình phân loại linh hoạt của Gemma.

Hướng dẫn về trình phân loại linh hoạt của Gemma

Bắt đầu lớp học lập trình Khởi động Google Colab

Các phương pháp hay nhất để thiết lập các biện pháp bảo vệ

Bạn nên sử dụng thuật toán phân loại an toàn. Tuy nhiên, các biện pháp bảo vệ có thể khiến mô hình tạo sinh không tạo ra bất cứ điều gì cho người dùng nếu nội dung bị chặn. Ứng dụng cần được thiết kế để xử lý trường hợp này. Hầu hết các bot trò chuyện phổ biến xử lý việc này bằng cách đưa ra câu trả lời soạn trước ("Tôi xin lỗi, tôi là một mô hình ngôn ngữ, tôi không thể giúp bạn giải quyết yêu cầu này").

Tìm sự cân bằng hợp lý giữa mức độ hữu ích và tính vô hại: Khi sử dụng thuật toán phân loại độ an toàn, điều quan trọng là bạn phải hiểu rằng trẻ sẽ mắc lỗi, bao gồm cả trường hợp dương tính giả (ví dụ: tuyên bố rằng một đầu ra là không an toàn trong khi thực tế) và âm tính giả (không gắn nhãn đầu ra là không an toàn nếu thực tế). Bằng cách đánh giá thuật toán phân loại bằng các chỉ số như F1, Độ chính xác, Thu hồi và AUC-ROC, bạn có thể xác định cách đánh đổi lỗi dương tính giả với lỗi âm tính giả. Bằng cách thay đổi ngưỡng của thuật toán phân loại, bạn có thể tìm được sự cân bằng lý tưởng để tránh việc lọc quá mức đầu ra trong khi vẫn đảm bảo mức độ an toàn phù hợp.

Kiểm tra thuật toán phân loại của bạn để xem có thiên kiến ngoài ý muốn hay không: Các thuật toán phân loại an toàn, giống như mọi mô hình học máy khác, có thể lan truyền các thành kiến ngoài ý muốn, chẳng hạn như định kiến về văn hoá xã hội. Các ứng dụng cần được đánh giá một cách thích hợp đối với các hành vi tiềm ẩn vấn đề. Cụ thể, thuật toán phân loại độ an toàn của nội dung có thể kích hoạt quá mức đối với nội dung liên quan đến danh tính, vốn là mục tiêu của các ngôn từ vi phạm trên mạng thường xuyên hơn. Ví dụ: khi API Perspective được ra mắt lần đầu, mô hình này đã trả về điểm độc hại cao hơn trong các nhận xét tham chiếu đến một số nhóm nhận dạng nhất định (blog). Hành vi kích hoạt quá mức này có thể xảy ra do các bình luận đề cập đến cụm từ nhận dạng cho các nhóm được nhắm mục tiêu thường xuyên hơn (ví dụ: những từ như "Người da đen", "theo đạo Hồi", "nữ quyền", "phụ nữ", "người đồng tính nam", v.v.) thường độc hại hơn. Khi các tập dữ liệu dùng để huấn luyện thuật toán phân loại có sự mất cân bằng đáng kể đối với các nhận xét chứa một số từ nhất định, thuật toán phân loại có thể khái quát hoá quá mức và coi tất cả bình luận chứa những từ đó là có khả năng không an toàn. Hãy đọc cách đội ngũ Jigsaw giảm thiểu sự thiên vị ngoài ý muốn này.

Tài nguyên dành cho nhà phát triển