SynthID: Công cụ tạo hình mờ và phát hiện văn bản do LLM tạo

Trí tuệ nhân tạo tạo sinh (GenAI) có thể tạo ra nhiều nội dung đa dạng hơn ở quy mô chưa từng có. Mặc dù phần lớn hoạt động sử dụng này là vì mục đích chính đáng, nhưng có lo ngại rằng việc này có thể góp phần gây ra thông tin sai lệch và vấn đề phân bổ sai. Việc tạo hình mờ là một kỹ thuật giúp giảm thiểu những tác động tiềm ẩn này. Bạn có thể áp dụng hình mờ mà con người không thể nhìn thấy cho nội dung do AI tạo, đồng thời các mô hình phát hiện có thể tính điểm cho nội dung tuỳ ý để cho biết khả năng nội dung đó đã được tạo hình mờ.

SynthID là một công nghệ của Google DeepMind, giúp tạo hình mờ và xác định nội dung do AI tạo bằng cách nhúng hình mờ kỹ thuật số trực tiếp vào hình ảnh, âm thanh, văn bản hoặc video do AI tạo. Chúng tôi đã phát hành công khai công cụ SynthID Text để nhà phát triển có thể sử dụng tính năng tạo hình mờ cho việc tạo văn bản. Bạn có thể đọc bài viết trên Nature để biết thông tin mô tả kỹ thuật đầy đủ hơn về phương thức này.

Bạn có thể thử nghiệm cách triển khai SynthID Text ở cấp độ sản xuất trong Hugging Face Transformers v4.46.0 trở lên trong SynthID Text Space chính thức. Bạn cũng có thể tham khảo cách triển khai trên GitHub. Cách này có thể hữu ích cho những người duy trì và đóng góp nguồn mở muốn đưa kỹ thuật này vào các khung khác.

Ứng dụng hình mờ

Trên thực tế, SynthID Text là một bộ xử lý logit, được áp dụng cho quy trình tạo của mô hình sau Top-K và Top-P, giúp tăng cường nhật ký của mô hình bằng cách sử dụng hàm g giả ngẫu nhiên để mã hoá thông tin hình mờ theo cách giúp bạn xác định xem mô hình có tạo văn bản hay không mà không ảnh hưởng đáng kể đến chất lượng văn bản. Hãy xem bài viết này để biết nội dung mô tả kỹ thuật đầy đủ về thuật toán và các bản phân tích về mức độ ảnh hưởng của các giá trị cấu hình khác nhau đến hiệu suất.

Hình mờ được định cấu hình để tham số hoá hàm g và cách áp dụng hàm này trong quá trình tạo. Mọi cấu hình hình mờ mà bạn sử dụng phải được lưu trữ an toàn và riêng tư, nếu không thì hình mờ của bạn có thể rất dễ được người khác sao chép.

Bạn phải xác định hai tham số trong mọi cấu hình tạo hình mờ:

  • Tham số keys là danh sách các số nguyên ngẫu nhiên, duy nhất dùng để tính điểm hàm g trên từ vựng của mô hình. Chiều dài của danh sách này xác định số lớp hình mờ được áp dụng. Hãy xem Phụ lục C.1 trong bài viết này để biết thêm thông tin chi tiết.
  • Tham số ngram_len được dùng để cân bằng giữa độ mạnh và khả năng phát hiện. Giá trị càng lớn thì hình mờ càng dễ phát hiện, nhưng khi thay đổi sẽ khó phát hiện hơn. Độ dài 5 là giá trị mặc định tốt.

Bạn có thể định cấu hình thêm hình mờ dựa trên nhu cầu về hiệu suất:

  • Bảng lấy mẫu được định cấu hình theo hai thuộc tính là sampling_table_sizesampling_table_seed. Bạn nên sử dụng sampling_table_size tối thiểu là\( 2^{16} \) để đảm bảo hàm g không thiên vị và ổn định khi lấy mẫu, nhưng hãy lưu ý rằng kích thước của bảng lấy mẫu ảnh hưởng đến dung lượng bộ nhớ cần thiết tại thời điểm suy luận. Bạn có thể sử dụng bất cứ số nguyên nào mình thích làm sampling_table_seed.
  • n gam lặp lại trong các mã thông báo context_history_size trước đó không được đánh dấu dưới nước để cải thiện khả năng phát hiện.

Bạn không cần phải huấn luyện thêm để tạo văn bản có hình mờ Văn bản SynthID bằng các mô hình của mình, chỉ cần cấu hình tạo hình mờ được truyền đến phương thức .generate() của mô hình để kích hoạt bộ xử lý logit Văn bản SynthID. Hãy xem bài đăng trên blogSpace để biết các ví dụ về mã cho thấy cách áp dụng hình mờ trong thư viện Transformers.

Khả năng phát hiện và xác minh hình mờ

Việc phát hiện hình mờ là khả năng. Trình phát hiện Bayes được cung cấp cùng với Ôm máy biến đổi khuôn mặt và trên GitHub. Trình phát hiện này có thể xuất ra 3 trạng thái phát hiện có thể có – có hình mờ, không có hình mờ hoặc không chắc chắn – và bạn có thể tuỳ chỉnh hành vi bằng cách đặt 2 giá trị ngưỡng để đạt được tỷ lệ dương tính giả và tỷ lệ âm tính giả cụ thể. Hãy xem Phụ lục C.8 trong bài viết để biết thêm thông tin chi tiết.

Các mô hình sử dụng cùng một trình tạo mã thông báo cũng có thể chia sẻ cấu hình và trình phát hiện hình mờ, do đó, chia sẻ một hình mờ chung, miễn là tập huấn luyện của trình phát hiện bao gồm các ví dụ từ tất cả các mô hình chia sẻ hình mờ.

Sau khi có trình phát hiện đã qua huấn luyện, bạn sẽ được lựa chọn xem có hiển thị trình phát hiện đó cho người dùng cũng như công chúng nói chung hay không và bằng cách nào.

  • Tuỳ chọn hoàn toàn riêng tư không phát hành hoặc tiết lộ trình phát hiện theo bất kỳ cách nào.
  • Tuỳ chọn bán riêng tư không phát hành trình phát hiện, nhưng hiển thị trình phát hiện đó thông qua một API.
  • Tuỳ chọn công khai sẽ phát hành trình phát hiện để người khác tải xuống và sử dụng.

Bạn và tổ chức của bạn cần quyết định phương pháp xác minh phát hiện phù hợp nhất với nhu cầu của mình, dựa trên khả năng hỗ trợ cơ sở hạ tầng và quy trình liên quan.

Các điểm hạn chế

Hình mờ của SynthID Text hoạt động hiệu quả trong một số phép biến đổi, chẳng hạn như cắt các đoạn văn bản, sửa đổi một vài từ hoặc diễn giải nhẹ nhàng, nhưng phương thức này có một số hạn chế.

  • Việc áp dụng hình mờ ít hiệu quả hơn đối với các câu trả lời về thực tế, vì có ít cơ hội để tăng cường việc tạo câu trả lời mà không làm giảm độ chính xác.
  • Điểm tin cậy của trình phát hiện có thể giảm đáng kể khi văn bản do AI tạo được viết lại toàn bộ hoặc dịch sang ngôn ngữ khác.

SynthID Text không được thiết kế để trực tiếp ngăn chặn những đối thủ có động lực gây hại. Tuy nhiên, nó có thể gây khó khăn cho việc sử dụng nội dung do AI tạo cho mục đích độc hại và có thể kết hợp với các phương pháp khác để mang lại mức độ phù hợp cao hơn trên các loại nội dung và nền tảng.