Bảo vệ các mô hình

Các sản phẩm trí tuệ nhân tạo tạo sinh (GenAI) còn khá mới và hành vi của chúng có thể khác biệt nhiều so với các dạng phần mềm trước đó. Các biện pháp bảo vệ giúp sản phẩm của bạn tránh bị lợi dụng các tính năng của AI tạo sinh phải thích ứng theo loại. Hướng dẫn này mô tả cách bạn có thể triển khai việc tuân thủ chính sách nội dung dấu kiểm và công cụ tạo hình mờ để bảo vệ các sản phẩm sử dụng AI tạo sinh của bạn.

Tuân thủ chính sách nội dung

Ngay cả khi bạn điều chỉnh để đảm bảo an toàn và thiết kế tốt mẫu câu lệnh, sản phẩm AI tạo sinh của bạn vẫn có thể tạo ra nội dung gây hại ngoài ý muốn. Các sản phẩm AI tạo sinh thường dựa vào tính năng lọc đầu vào và đầu ra để đảm bảo hoạt động của mô hình có trách nhiệm. Các kỹ thuật này kiểm tra dữ liệu đi vào hoặc đi ra khỏi mô hình có tuân thủ chính sách của bạn hay không, thường là bằng cách thực hiện thêm hoạt động đào tạo về an toàn để tạo mô hình phân loại nội dung.

Bộ phân loại đầu vào được dùng để lọc nội dung trực tiếp hoặc có thể khiến mô hình của bạn tạo ra nội dung vi phạm chính sách nội dung của bạn. Dữ liệu đầu vào các bộ lọc thường nhắm đến các cuộc tấn công đối nghịch nhằm tránh né nội dung của bạn Google Cloud.

Bộ phân loại đầu ra lọc đầu ra của mô hình, phát hiện nội dung được tạo vi phạm chính sách an toàn của bạn. Việc theo dõi cẩn thận các hành vi từ chối nội dung có thể giúp bạn đưa ra các loại lời nhắc mới có thể dùng để bổ sung hoặc cải thiện bộ lọc đầu vào.

Bạn nên có các thuật toán phân loại bao gồm tất cả chính sách nội dung của mình. Bạn có thể đạt được điều này bằng cách sử dụng các thuật toán phân loại tạo sẵn hoặc bạn có thể cần tạo các thuật toán phân loại tuỳ chỉnh hỗ trợ các chính sách cụ thể của mình.

Sự cân bằng cũng rất quan trọng. Lọc quá mức có thể dẫn đến tổn hại không mong muốn hoặc làm giảm tiện ích của ứng dụng; hãy nhớ xem xét các trường hợp mà việc lọc quá mức có thể đang xảy ra. Hãy xem hướng dẫn đánh giá mức độ an toàn để tìm hiểu thêm.

Các thuật toán phân loại sẵn theo chính sách nội dung

Các thuật toán phân loại nội dung tạo sẵn bổ sung một lớp bảo vệ cho chương trình huấn luyện an toàn vốn có của mô hình, giảm thiểu thêm khả năng một số các loại vi phạm chính sách. Chúng thường có hai loại:

  1. Bạn có thể tải xuống và lưu trữ các thuật toán phân loại tự lưu trữ (chẳng hạn như ShieldGemma) trên nhiều cấu trúc, bao gồm cả các nền tảng đám mây như Google Cloud, phần cứng thuộc sở hữu riêng và một số thuật toán phân loại thậm chí có thể chạy trên thiết bị cho các ứng dụng di động.
  2. Thuật toán phân loại dựa trên API được cung cấp như là các dịch vụ cung cấp số lượng lớn, phân loại độ trễ thấp so với nhiều chính sách. Google cung cấp ba dịch vụ bạn có thể quan tâm:
    • Chương trình Checks AI Safety cung cấp các bài đánh giá về việc tuân thủ và các trang tổng quan hỗ trợ cho việc đánh giá và giám sát mô hình. Công cụ An toàn AI đang ở giai đoạn thử nghiệm beta công khai. Hãy đăng ký để nhận tin tức, quyền truy cập và bản minh hoạ.
    • Dịch vụ kiểm duyệt văn bản là một API của Google Cloud. Dịch vụ này phân tích văn bản để tìm các lỗi vi phạm về an toàn, bao gồm cả các danh mục gây hại và chủ đề nhạy cảm, tuân theo mức sử dụng.
    • Perspective API là một API miễn phí sử dụng máy các mô hình học tập để cho điểm mức độ tác động trực quan mà một nhận xét có thể có đối với cuộc trò chuyện. Chỉ số này cung cấp điểm số cho biết xác suất một bình luận có độc hại, đe doạ, xúc phạm hoặc lạc đề hay không.

Bạn cần phải đánh giá xem các thuật toán phân loại được tạo sẵn có đáp ứng chính sách của bạn hay không mục tiêu và đánh giá định tính các trường hợp thất bại.

Trình phân loại tuỳ chỉnh theo chính sách nội dung

Các bộ phân loại chính sách nội dung tạo sẵn là một điểm khởi đầu tuyệt vời, nhưng chúng có các giới hạn, bao gồm:

  • Một cách phân loại chính sách cố định có thể không liên kết đến hoặc bao gồm tất cả nội dung của bạn Google Cloud.
  • Các yêu cầu về phần cứng và khả năng kết nối có thể không phù hợp với môi trường mà ứng dụng sử dụng công nghệ GenAI sẽ được triển khai.
  • Mức giá và các quy định hạn chế khác về việc sử dụng.

Phương pháp phân loại chính sách nội dung tuỳ chỉnh có thể là một cách để giải quyết những hạn chế này, và phương thức phân loại linh hoạt cung cấp một khung hiệu quả và linh hoạt để tạo các phương pháp phân loại đó. Khi phương thức này điều chỉnh một mô hình để đảm bảo an toàn, hãy nhớ xem lại thông tin cơ bản về cách điều chỉnh mô hình.

Xác định nội dung do AI tạo bằng hình mờ Văn bản SynthID

AI tạo sinh có thể tạo ra nhiều nội dung có tính đa dạng cao ở quy mô lớn trước đây ngoài sức tưởng tượng của mình. Mặc dù phần lớn việc sử dụng này là vì mục đích chính đáng, nhưng có mối lo ngại rằng việc này có thể góp phần gây ra thông tin sai lệch và vấn đề phân bổ sai. Tạo hình mờ là một kỹ thuật giúp giảm thiểu những tác động tiềm ẩn này. Hình mờ mà con người không nhìn thấy được có thể được áp dụng cho nội dung do AI tạo, và các mô hình phát hiện có thể chấm điểm nội dung tuỳ ý để cho biết khả năng đã được tạo hình mờ.

SynthID là một công nghệ của Google DeepMind giúp tạo hình mờ và xác định nội dung do AI tạo bằng cách nhúng hình mờ kỹ thuật số trực tiếp vào Hình ảnh, âm thanh, văn bản hoặc video do AI tạo. SynthID Text hiện đã có sẵn để phát hành trong Hugging Face Transformers. Hãy xem bài báo nghiên cứutài liệu để tìm hiểu thêm về cách sử dụng SynthID trong ứng dụng của bạn.

Google Cloud cung cấp chức năng tạo hình mờ SynthID cho các phương thức khác, chẳng hạn như Hình ảnh tạo bằng hình ảnh, cho khách hàng của Vertex AI.

Các phương pháp hay nhất để thiết lập các biện pháp bảo vệ

Bạn nên sử dụng thuật toán phân loại an toàn làm biện pháp bảo vệ. Tuy nhiên, các giới hạn an toàn có thể khiến mô hình tạo sinh không tạo ra nội dung nào cho người dùng nếu nội dung bị chặn. Các ứng dụng cần được thiết kế để xử lý trường hợp này. Hầu hết các chatbot phổ biến đều xử lý vấn đề này bằng cách cung cấp câu trả lời có sẵn ("Tôi xin lỗi, tôi là một mô hình ngôn ngữ, tôi không thể giúp bạn về yêu cầu này").

Tìm sự cân bằng phù hợp giữa tính hữu ích và tính vô hại: Khi sử dụng các thuật toán phân loại an toàn, điều quan trọng là bạn phải hiểu rằng các thuật toán này sẽ mắc lỗi, bao gồm cả kết quả dương tính giả (ví dụ: cho rằng một kết quả đầu ra là không an toàn trong khi thực tế là an toàn) và kết quả âm tính giả (không gắn nhãn một kết quả đầu ra là không an toàn trong khi thực tế là không an toàn). Bằng cách đánh giá các thuật toán phân loại bằng các chỉ số như F1, Độ chính xác, Mức độ gợi nhắc và AUC-ROC, bạn có thể xác định cách bạn muốn đánh đổi lỗi dương tính giả so với lỗi âm tính giả. Bằng cách thay đổi ngưỡng của bộ phân loại, bạn có thể tìm được điểm cân bằng lý tưởng để tránh lọc quá nhiều đầu ra, đồng thời vẫn đảm bảo độ an toàn thích hợp.

Kiểm tra các thuật toán phân loại để tìm sự thiên vị ngoài ý muốn: Các thuật toán phân loại an toàn, giống như mọi mô hình học máy khác, có thể truyền bá sự thiên vị ngoài ý muốn, chẳng hạn như các khuôn mẫu xã hội-văn hoá. Các ứng dụng cần được đánh giá thích hợp để phát hiện hành vi có thể gây ra vấn đề. Cụ thể, thuật toán phân loại độ an toàn nội dung có thể kích hoạt quá mức trên nội dung liên quan đến danh tính thường xuyên hơn mục tiêu của ngôn ngữ lăng mạ trên mạng. Ví dụ: khi API Perspective được ra mắt lần đầu tiên, mô hình này trả về điểm độc hại cao hơn trong các bình luận tham chiếu đến một số nhóm danh tính nhất định (blog). Việc kích hoạt quá mức này có thể xảy ra vì bình luận đề cập đến điều khoản nhận dạng để các nhóm người dùng thường xuyên được nhắm mục tiêu (ví dụ: các từ như "Người da đen", "người Hồi giáo", "người nữ quyền", "phụ nữ", "đồng tính nam", v.v.) thường độc hại hơn. Khi tập dữ liệu dùng để Các thuật toán phân loại của chương trình huấn luyện có sự không cân bằng đáng kể đối với những nhận xét chứa một số các từ đó, thuật toán phân loại có thể khái quát hoá quá mức và xem xét mọi bình luận có chứa những từ đó có khả năng không an toàn. Hãy đọc cách nhóm Jigsaw giảm thiểu sự thiên vị ngoài ý muốn này.

Tài nguyên dành cho nhà phát triển