SynthID: Công cụ tạo hình mờ và phát hiện văn bản do LLM tạo

Trí tuệ nhân tạo tạo sinh (GenAI) có thể tạo ra nhiều nội dung đa dạng hơn ở quy mô chưa từng có. Mặc dù phần lớn hoạt động này sử dụng là vì mục đích chính đáng, có lo ngại rằng thông tin này có thể góp phần vấn đề thông tin sai lệch và phân bổ sai. Việc tạo hình mờ là một kỹ thuật giúp giảm thiểu những tác động tiềm ẩn này. Bạn có thể áp dụng hình mờ mà con người không thể nhìn thấy cho nội dung do AI tạo, đồng thời các mô hình phát hiện có thể tính điểm cho nội dung tuỳ ý để cho biết khả năng nội dung đó đã được tạo hình mờ.

SynthID là một công nghệ của Google DeepMind, giúp tạo hình mờ và xác định nội dung do AI tạo bằng cách nhúng hình mờ kỹ thuật số trực tiếp vào hình ảnh, âm thanh, văn bản hoặc video do AI tạo. SynthID Text đã được chuyển thành nguồn mở để nhà phát triển có thể tạo hình mờ để tạo văn bản. Bạn có thể đọc bài viết trên Nature để nắm được thông tin kỹ thuật hoàn chỉnh hơn phần mô tả về phương thức.

Triển khai SynthID Text ở cấp sản xuất hiện có trong Ôm Face Transformers phiên bản 4.46.0 trở lên Không gian văn bản SynthID chính thức. Bạn cũng có thể tham khảo cách triển khai trên GitHub. Cách này có thể hữu ích cho những người duy trì và đóng góp nguồn mở muốn đưa kỹ thuật này vào các khung khác.

Ứng dụng hình mờ

Trên thực tế, Văn bản SynthID là một bộ xử lý logit, được áp dụng cho quy trình tạo mô hình sau Top-K và Top-P, giúp tăng cường logit của mô hình bằng cách sử dụng hàm g ngẫu nhiên giả để mã hoá thông tin về việc tạo hình mờ theo cách cân bằng chất lượng tạo hình mờ với khả năng phát hiện hình mờ. Hãy xem bài viết để biết nội dung mô tả kỹ thuật đầy đủ về thuật toán và phân tích mức độ ảnh hưởng của các giá trị cấu hình khác nhau đến hiệu suất.

Vân nước được định cấu hình để tham số hoá Hàm g và cách áp dụng hàm này trong quá trình tạo. Mỗi mô hình mà bạn sử dụng phải có cấu hình tạo hình mờ riêng, cấu hình này phải được lưu trữ một cách an toàn và riêng tư, nếu không, người khác có thể dễ dàng sao chép hình mờ của bạn.

Bạn phải xác định 2 thông số trong mỗi cấu hình tạo hình mờ:

  • Tham số keys là danh sách các số nguyên ngẫu nhiên, duy nhất dùng để tính điểm hàm g trên từ vựng của mô hình. Chiều dài của danh sách này xác định số lớp hình mờ được áp dụng. Xem Phụ lục C.1 trong bài viết này để biết thêm thông tin chi tiết.
  • Tham số ngram_len được dùng để cân bằng độ mạnh mẽ và khả năng phát hiện; giá trị càng lớn thì hình mờ càng dễ phát hiện, nhưng đồng thời cũng dễ bị thay đổi hơn. Độ dài 5 là giá trị mặc định tốt.

Bạn có thể định cấu hình thêm hình mờ dựa trên nhu cầu về hiệu suất:

  • Một bảng lấy mẫu được định cấu hình theo hai tài sản là sampling_table_sizesampling_table_seed. Bạn muốn sử dụng sampling_table_size của ít nhất \( 2^{16} \) để đảm bảo hàm g không lệch và ổn định khi lấy mẫu, nhưng xin lưu ý rằng quy mô của bảng lấy mẫu tác động đến số lượng bộ nhớ cần thiết tại thời điểm suy luận. Bạn có thể sử dụng bất kỳ số nguyên nào bạn muốn làm sampling_table_seed.
  • Các chuỗi n lặp lại trong các mã thông báo trước context_history_size không được đóng dấu để cải thiện khả năng phát hiện.

Bạn không cần phải huấn luyện thêm để tạo văn bản có hình mờ Văn bản SynthID bằng các mô hình của mình, chỉ cần cấu hình tạo hình mờ được truyền đến phương thức .generate() của mô hình để kích hoạt bộ xử lý logit Văn bản SynthID. Xem bài đăng trên blogSpace để tham khảo các đoạn mã ví dụ minh hoạ cách áp dụng hình mờ trong thư viện Bộ chuyển đổi.

Phát hiện và xác minh hình mờ

Việc phát hiện hình mờ là khả năng. Trình phát hiện Bayes đi kèm với Ôm hình khuôn mặt Transformers và đang bật GitHub. Trình phát hiện này có thể cho ra 3 khả năng phát hiện trạng thái—có hình mờ, không có hình mờ hoặc không chắc chắn—và hành vi có thể được tuỳ chỉnh bằng cách đặt hai giá trị ngưỡng. Xem Phụ lục C.8 trong bài viết để biết thêm chi tiết.

Bạn có thể điều chỉnh các ngưỡng để đưa ra cảnh báo dương tính giả (FN) và dương tính giả (FN) cụ thể tỷ lệ âm trên một tập hợp câu lệnh hoặc độ dài. Xem Phụ lục C.8 trong bài viết để biết thông tin chi tiết.

Sau khi huấn luyện trình phát hiện, bạn có thể chọn việc có hiển thị trình phát hiện đó cho người dùng và công chúng hay không, cũng như cách hiển thị.

  • Tuỳ chọn hoàn toàn riêng tư không phát hành hoặc tiết lộ trình phát hiện theo bất kỳ cách nào.
  • Tuỳ chọn bán riêng tư không giải phóng trình phát hiện, nhưng hiển thị trình phát hiện đó thông qua một API.
  • Tuỳ chọn công khai sẽ phát hành trình phát hiện để người khác tải xuống và sử dụng.

Bạn và tổ chức của bạn cần quyết định phương pháp xác minh phát hiện phù hợp nhất với nhu cầu của mình, dựa trên khả năng hỗ trợ cơ sở hạ tầng và quy trình liên quan.

Các điểm hạn chế

Hình mờ SynthID Text có hiệu quả cao đối với một số phép biến đổi — có thể cắt ghép thành phần văn bản, sửa đổi một vài từ hoặc diễn đạt nhẹ nhàng, nhưng phương pháp này có những hạn chế.

  • Việc áp dụng hình mờ ít hiệu quả hơn đối với các câu trả lời về thực tế, vì có ít cơ hội để tăng cường việc tạo câu trả lời mà không làm giảm độ chính xác.
  • Điểm số tin cậy của trình phát hiện có thể bị giảm đáng kể khi văn bản do AI tạo được viết lại kỹ lưỡng hoặc được dịch sang ngôn ngữ khác.

SynthID Text không được thiết kế để trực tiếp ngăn chặn những đối thủ có động lực gây ra hại. Tuy nhiên, việc này có thể gây khó khăn cho việc sử dụng nội dung do AI tạo cho mục đích độc hại và có thể kết hợp với các phương pháp khác để mang lại mức độ phù hợp cao hơn trên nhiều loại nội dung và nền tảng.