SynthID: Công cụ tạo hình mờ và phát hiện văn bản do LLM tạo

Trí tuệ nhân tạo tạo sinh (GenAI) có thể tạo ra nhiều nội dung đa dạng hơn ở quy mô chưa từng có. Mặc dù phần lớn hoạt động sử dụng này là vì mục đích chính đáng, nhưng có lo ngại rằng việc này có thể góp phần gây ra thông tin sai lệch và vấn đề phân bổ sai. Việc tạo hình mờ là một kỹ thuật giúp giảm thiểu những tác động tiềm ẩn này. Bạn có thể áp dụng hình mờ mà con người không thể nhìn thấy cho nội dung do AI tạo, đồng thời các mô hình phát hiện có thể tính điểm cho nội dung tuỳ ý để cho biết khả năng nội dung đó đã được tạo hình mờ.

SynthID là một công nghệ của Google DeepMind, có chức năng tạo hình mờ và xác định nội dung do AI tạo bằng cách nhúng hình mờ kỹ thuật số trực tiếp vào hình ảnh, âm thanh, văn bản hoặc video do AI tạo. Chúng tôi đã phát hành công khai công cụ SynthID Text để nhà phát triển có thể sử dụng tính năng tạo hình mờ cho văn bản. Bạn có thể đọc bài viết trên Nature để biết thông tin mô tả kỹ thuật đầy đủ hơn về phương thức này.

Bạn có thể thử nghiệm cách triển khai SynthID Text ở cấp độ sản xuất trong Hugging Face Transformers v4.46.0 trở lên trong Không gian văn bản SynthID chính thức. Bạn cũng có thể tham khảo cách triển khai trên GitHub. Cách này có thể hữu ích cho những người duy trì và đóng góp nguồn mở muốn đưa kỹ thuật này vào các khung khác.

Ứng dụng hình mờ

Trên thực tế, Văn bản SynthID là một bộ xử lý logit, được áp dụng cho quy trình tạo mô hình sau Top-K và Top-P, giúp tăng cường logit của mô hình bằng cách sử dụng hàm g ngẫu nhiên giả để mã hoá thông tin đóng dấu mà không ảnh hưởng đáng kể đến chất lượng văn bản. Hãy xem bài viết để biết nội dung mô tả kỹ thuật đầy đủ về thuật toán và phân tích mức độ ảnh hưởng của các giá trị cấu hình khác nhau đến hiệu suất.

Hình mờ được định cấu hình để tham số hoá hàm g và cách áp dụng hàm này trong quá trình tạo. Mỗi cấu hình tạo hình mờ mà bạn sử dụng phải được lưu trữ một cách an toàn và riêng tư, nếu không, người khác có thể dễ dàng sao chép hình mờ của bạn.

Bạn phải xác định hai tham số trong mọi cấu hình tạo hình mờ:

  • Tham số keys là danh sách các số nguyên ngẫu nhiên, duy nhất dùng để tính điểm hàm g trên từ vựng của mô hình. Chiều dài của danh sách này xác định số lớp hình mờ được áp dụng. Hãy xem Phụ lục C.1 trong bài viết này để biết thêm thông tin chi tiết.
  • Tham số ngram_len được dùng để cân bằng độ mạnh mẽ và khả năng phát hiện; giá trị càng lớn thì hình mờ càng dễ phát hiện, nhưng đồng thời cũng dễ bị thay đổi hơn. Độ dài 5 là giá trị mặc định phù hợp.

Bạn có thể định cấu hình thêm hình mờ dựa trên nhu cầu về hiệu suất:

  • Bảng lấy mẫu được định cấu hình bằng hai thuộc tính là sampling_table_sizesampling_table_seed. Bạn nên sử dụng sampling_table_size tối thiểu là216 để đảm bảo hàm g không thiên vị và ổn định khi lấy mẫu, nhưng hãy lưu ý rằng kích thước của bảng lấy mẫu ảnh hưởng đến dung lượng bộ nhớ cần thiết tại thời điểm suy luận. Bạn có thể sử dụng bất kỳ số nguyên nào bạn muốn làm sampling_table_seed.
  • Các chuỗi n lặp lại trong các mã thông báo trước context_history_size không được đóng dấu để cải thiện khả năng phát hiện.

Bạn không cần huấn luyện thêm để tạo văn bản có hình mờ Văn bản SynthID bằng các mô hình của mình, chỉ cần cấu hình tạo hình mờ được truyền đến phương thức .generate() của mô hình để kích hoạt bộ xử lý logit Văn bản SynthID. Hãy xem bài đăng trên blogSpace để biết các ví dụ về mã cho thấy cách áp dụng hình mờ trong thư viện Transformers.

Khả năng phát hiện và xác minh hình mờ

Tính năng phát hiện hình mờ có tính xác suất. Trình phát hiện Bayesian được cung cấp cùng với Hugging Face Transformers và trên GitHub. Trình phát hiện này có thể xuất ra 3 trạng thái phát hiện có thể có – có hình mờ, không có hình mờ hoặc không chắc chắn – và bạn có thể tuỳ chỉnh hành vi bằng cách đặt 2 giá trị ngưỡng để đạt được tỷ lệ dương tính giả và tỷ lệ âm tính giả cụ thể. Hãy xem Phụ lục C.8 trong bài viết để biết thêm thông tin chi tiết.

Các mô hình sử dụng cùng một trình tạo mã thông báo cũng có thể chia sẻ cấu hình và trình phát hiện hình mờ, do đó, chia sẻ một hình mờ chung, miễn là tập huấn luyện của trình phát hiện bao gồm các ví dụ từ tất cả các mô hình chia sẻ hình mờ.

Sau khi huấn luyện trình phát hiện, bạn có thể chọn việc có hiển thị trình phát hiện đó cho người dùng và công chúng hay không, cũng như cách hiển thị.

  • Tuỳ chọn hoàn toàn riêng tư không phát hành hoặc tiết lộ trình phát hiện theo bất kỳ cách nào.
  • Tuỳ chọn bán riêng tư không giải phóng trình phát hiện, nhưng hiển thị trình phát hiện đó thông qua một API.
  • Tuỳ chọn công khai sẽ phát hành trình phát hiện để người khác tải xuống và sử dụng.

Bạn và tổ chức của bạn cần quyết định phương pháp xác minh phát hiện nào phù hợp nhất với nhu cầu của mình, dựa trên khả năng hỗ trợ cơ sở hạ tầng và quy trình liên quan.

Các điểm hạn chế

Hình mờ Văn bản SynthID có khả năng chống lại một số biến đổi – cắt các đoạn văn bản, sửa đổi một vài từ hoặc diễn đạt lại một cách nhẹ nhàng – nhưng phương thức này có một số hạn chế.

  • Việc áp dụng hình mờ ít hiệu quả hơn đối với các câu trả lời về thực tế, vì có ít cơ hội để tăng cường việc tạo câu trả lời mà không làm giảm độ chính xác.
  • Điểm tin cậy của trình phát hiện có thể giảm đáng kể khi văn bản do AI tạo được viết lại toàn bộ hoặc dịch sang ngôn ngữ khác.

Văn bản SynthID không được thiết kế để ngăn chặn trực tiếp những kẻ thù có động cơ gây hại. Tuy nhiên, việc này có thể khiến việc sử dụng nội dung do AI tạo cho mục đích độc hại trở nên khó khăn hơn. Ngoài ra, bạn có thể kết hợp phương pháp này với các phương pháp khác để mở rộng phạm vi áp dụng trên các loại nội dung và nền tảng.